huguoping830623-CSDN博客

转载上传非结构化数据到HBase

import java.util.List;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.nio.ByteBuffer;import java.util.ArrayList;imp

2017-07-27 15:24:53 779

原创 kylin和superset整合

版本信息kylin版本1.6，supersert版本0.18.5supersert不支持直接使用kylin的数据，有人写了pykylin来完成他们的连接，所以先要安装pykylin1、安装superset，kylin，这部分有其他的文章有信息讲2、安装pykylin， https://github.com/wxiang7/pykylin git下载源码

2017-07-21 12:05:54 3141

转载 mysql-maxwell binlog订阅

原文地址：http://maxwells-daemon.io/quickstart/测试经过和结果：1、mysql安装略过2、配置mysql,并开启bin_log# vi /etc/my.cnf[mysqld]server-id=1log-bin=masterbinlog_format=row**需要重

2017-03-24 10:27:20 3259 2

原创 kerberos安装

kerberos安装：http://www.cnblogs.com/xiaodf/p/5968178.html1.配置hosts2.选择一台机器安装kdcyum install krb5-server krb5-libs krb5-auth-dialog3.配置kdc.conf[kdcdefaults]kdc_ports = 88kd

2017-03-16 15:30:54 1511

原创 superset 安装部署

源码部署 http://airbnb.io/superset/installation.html安装Python环境依赖sudo yum upgrade python-setuptoolssudo yum install gcc libffi-devel python-devel python-pip python-wheel openssl-devel libsas

2017-01-20 09:39:04 5748 1

原创 hadoop复制因子单独设置

1、 Hadoop 可以通过 dfs.replication来设置复制因子数量2、可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1 -put 1.txt /tmp/3、可以通过命令来更改已经上传的文件的副本数： hadoop fs -setrep -R 1 /tmp ,把/tmp目录下的文件复制因子设置成1个4、关于

2016-12-09 10:12:55 2752

原创 hue sentry界面配置步骤

一、sentry CDH配置1、hive的配置绕过 Sentry 授权用户sentry.metastore.service.users 要修改元数据表的用户要配置到这个里面，如下面的biadmin2、impala配置二、 Sentry授权1、在l

2016-11-11 14:13:36 3716

原创 kafka low levle实例

package com.ymm.KafkaConsumLog;import kafka.api.FetchRequest;import kafka.api.FetchRequestBuilder;import kafka.api.PartitionOffsetRequestInfo;import kafka.common.ErrorMapping;import kafk

2016-09-30 17:29:29 451

原创 SVM实例

import org.apache.spark.SparkContextimport org.apache.spark.mllib.classification.SVMWithSGDimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.linalg.Vectorsval

2016-09-08 16:31:32 631

转载 hbase命令写数据到hbase表

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=$(echo -e '\t') -Dimporttsv.columns=HBASE_ROW_KEY,sf:docket,sf:courtname,sf:personnamelist,sf:companyname LengJingSearchSF /use

2016-08-30 18:29:45 632

原创 CDH key value index lily安装配置

Key-Value Store Indexer这个组件非常关键，是Hbase到Solr生成索引的中间工具。Lily HBase Indexer是一款灵活的、可扩展的、高容错的、事务性的，并且近实时的处理HBase列索引数据的分布式服务软件。它是NGDATA公司开发的Lily系统的一部分，已开放源代码。Lily HBase Indexer使用SolrCloud来存储HBase

2016-08-05 16:00:52 2052

原创 Hadoop集群磁盘数据迁移

背景由于历史原因，CDH的hadoop的每个datanode节点有3个数据磁盘，每个磁盘的大小不一样data 500Gdata1 2Tdata2 2T由于阿里云的根目录很小，只有20G，所以MR的中间文件，日志等只能跟数据盘共用。然后，Hadoop在写入数据的时候，会先写满一个磁盘再写其他磁盘，这样某个磁盘满了，就不能在写入日志和中间文件，导致无法进行MR，

2016-07-14 17:06:20 3504

原创 yarn node manager启动失败

/data/lib/hadoop-yarnmv yarn-nm-recovery /tmp/20160225bak Application application_1456459092764_0002 failed 2 times due to AM Container for appattempt_1456459092764_0002_000002 e

2016-07-14 17:02:10 2007

原创 sqoop常见问题

sqoop导入mysql的tinyInt(1)字段，会自动转化成boolean。解决办法是在jdbc连接中加上tinyInt1isBit=falsesqoop导入parquet全量数据时，spark sql 无法识别

2016-07-14 17:01:31 549

原创 Spark SQL的常见问题

问题：spark sql执行生成的数据文件为大量的小文件。原因：spark sql目前版本不支持小文件的合并。临时解决方案：spark sq生成数据后，使用hive进行select 和 insert overwrite操作。

2016-07-14 16:58:54 1003

原创 HiveServer2的常见问题

在使用hiveserver2查询时（比如HUE，或者beeline连10000端口），会遇到这样的问题，where语句后如果使用了between，则between的两个值必须不一样，否则在hiveserver2中是查不出数据的，如果值一样的时候，直接用“=”。例如： where date between 20160425 and 20160425 (hiveserver2 not OK,

2016-07-14 16:56:01 2321

原创 CDH问题汇总

问题1：在主节点初始化 CM5的数据库报错：ld-linux.so.2 bad ELF interpreter解决：安装 glibc 和 glibc.i686 问题2：报错：ProtocolError: 解决：$> ps -ef | grep supervisord$> kill -9 /opt/cm-5.6.0/etc/init.d/cloudera-sc

2016-07-14 16:54:39 1649

原创 kafka常见问题

1、java消费者不能消费数据--------版本不匹配问题工程代码引用的kafka jar包的版本，要与线上安装包的版本一致。否则会出现消费者消费不到数据的问题

2016-07-14 16:52:40 695

原创 Impala问题汇总

1、时区问题：默认impala配置不是中国的时区，所以在用from_unixtime的时候，有误差。解决方案：impala启动时加 -use_local_tz_for_unix_timestamp_conversions=true在cdh里面，impala->配置->mpala Daemo ->Impala Daemon 命令行参数高级配置代码段（安全阀）加 -us

2016-07-14 16:51:52 4054 1

原创 sentry配置

官方文档：http://www.cloudera.com/documentation/enterprise/5-4-x/topics/sg_policy_cm_config.html#concept_nt1_c1z_zp_unique_11.开启testing.mode（否则需要先配好Kerberos )cm中hive的配置->sentry-site.xml添加：sentry

2016-07-04 15:55:56 1856

原创 scala 执行 hive,hadoop,mysql等命令

import java.sql.{DriverManager, Connection, ResultSet}import scala.sys.process.Processobject Test2 { def main(args: Array[String]) { print(execute()) } def execute(): Int = { var seq=Seq("

2016-07-04 15:49:17 1613

原创 spark安装文档

1.安装JDK一定要安装1.7以上版本，在master，slave上都要安装2.安装scala 2.11.7 3.安装spark下载预编译版本spark-1.4.1-bin-hadoop2.6 4.配置文件 spark-env.sh文件：############export SCALA_HOME=/usr/lib/sc

2016-05-09 10:13:31 380

原创 CDH安装配置LDAP

安装OpenLDAP安装机器：slave-041 安装openldapyum install -y openldap openldap-servers openldap-clients2 修改配置文件 cp /usr/share/openldap-servers/slapd.conf.obsolete /etc/openldap/slapd.conf cp

2016-05-09 10:09:51 2919 1

原创阿里调度系统zeus 安装使用

注意：原始代码只支持centos6操作系统，如果是centos7操作系统，需修改MemUseRateJob类的 run() 方法1、安装jdk1.7 注意，zeus不支持jdk1.82、在部署服务器安装dos2unix 命令 yum install dos2unix3、安装tomcat，我用的是tomcat74、在worker机器上添加biadmin用户修...

2016-05-09 10:02:08 10907 4

转载 ganglia安装

一、监控节点需要安装的软件：GangliaGanglia-webPhpApache二、被监控节点需要安装的软件：Ganglia三、下载软件ganglia-3.6.0.tar.gz http://jaist.dl.sourceforge.net/project/ganglia/ganglia%20monitoring%20core/3.6.0/gangl

2016-03-03 10:21:20 525

原创 kafka监控Kafka Offset Monitor

1、下载kafka-offset-console jar包 https://github.com/quantifind/KafkaOffsetMonitor2、建 vi mobile_start_en.sh#!/bin/bashjava -cp KafkaOffsetMonitor-assembly-0.2.0.jar com.quantifind.kafka.of

2016-03-03 10:20:28 1238

转载 CDH安装文档

参考文档：http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cm_ig_install_path_b.html#concept_qwc_xcc_yr_unique_11、卸载openjdk先查看 rpm -qa | grep java显示如下信息：java-1.4.2-g

2016-02-17 14:25:46 418

原创 kafka监控

一、linux手动安装sbt过程1、下载sbt通用平台压缩包http://www.scala-sbt.org/download.html2、解压文件tar zxvf sbt-0.13.5.tgz -C /opt/scala/3、建立启动sbt的脚本文件cd /opt/scala/sbt/vim sbt在sbt文本文件中添加 BT_OPTS="-Xms51

2016-02-16 15:08:30 547

原创 Storm搭建

1、前期准备# yum install libtool# yum install gcc# yum install gcc-c++# yum install makeyum install uuid-devel# yum install libuuid-devel2、安装zeromq 2.1.4http://download.zeromq.org/tar

2016-02-01 16:42:24 286

原创 mongdb java 实例

1、pox.xml org.mongodb mongo-java-driver 3.2.0 2、java代码public class TestMongo { public static void main(String[] args) { MongoClientURI uri = new MongoClie

2016-01-18 17:07:38 460

转载 canal部署与实例运行

1、安装包下载 https://github.com/alibaba/canal/releases2、部署canal-server（1）开启mysql的binlog功能，并配置binlog模式为row。在my.cnf 加入如下：log-bin=mysql-bin #添加这一行就ok binlog-format=ROW #选择row模式 server_id=1 #

2016-01-18 17:02:39 4289

原创 eclipse scala工程

eclipse版本4.4,scala版本2.11help->install new software 安装。add 输入网址：http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site

2015-09-29 10:46:50 437

转载 apache中国镜像

http://mirrors.cnnic.cn/apache/

2015-09-22 14:56:51 996

转载 kafka+storm整合 java示例

一、flume和kafka整合请参照 http://blog.csdn.net/huguoping830623/article/details/48138319二、示例package com.hgp.kafka.kafka;import java.util.Arrays;import java.util.HashMap;import java.util.Iterator;

2015-09-18 11:56:56 10141 1

原创 flume读取日志数据写入kafka

一、flume配置flume要求1.6以上版本flume-conf.properties文件配置内容，sinks的输出作为kafka的producta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = execa1.sources.r

2015-08-31 19:13:38 11208 1

原创 hive远程debug

1、编译hive的源代码（mvn eclipse:eclipse）,把编译后的工程导入eclipse2、启动hive，命令hive --debug 。[root@hadoop2 ~]# hive --debugListening for transport dt_socket at address: 80003、在eclipse里面，打开Debug Configurations

2015-08-19 18:10:58 1087

转载相似度算法

1、欧几里得距离2、皮尔逊相关系数3、基于夹角余弦计算相似度4、基于Tanimoto系数计算相似度5、近邻相似度算法1）固定数量的邻居：K-neighborhoods2）基于相似度门槛的邻居：Threshold-based neighborhoods

2015-05-25 10:09:39 646

原创 hadoop源码远程debug

1、$HADOOP_HOME/etc/hadoop/hadoop-env.sh文件的最后添加你想debug的进程#远程调试namenodeexport HADOOP_NAMENODE_OPTS="-agentlib:jdwp=transport=dt_socket,address=8888,server=y,suspend=y"#远程调试datanodeexport

2015-05-04 18:15:59 737

转载 protobuf-2.5.0.tar.gz的下载与安装

1.下载 hadoop使用protocol buffer进行通信，需要下载和安装 protobuf-2.5.0.tar.gz。由于现在 protobuf-2.5.0.tar.gz已经无法在官网 https://code.google.com/p/protobuf/downloads/list中下载了，本人将 protobuf-2.5.0.tar.gz上传到百度云盘供大家下载，地址

2015-05-04 16:29:46 31125 7

原创 hive 自定义UDF,hive编译

要自定一个hive的函数，步骤如下1、写一个java类要继承org.apache.hadoop.hive.ql.exec.UDF类实现evaluate 下面是一个替换字符串的函数，因为函数以后实在hadoop上运行，所以数据类型是hadoop的数据类型引入的jar包：hive的所有jar 和 hadoop的hadoop-common-2.5.2.jar package h

2015-04-30 11:43:43 861

百度地图MarkerClusterer卡顿问题

亲测好用的百度地图海量marker性能优化，把百度地图的MarkerClusterer.js，替换成我提供的js，其他代码原样不动。我也提供了一个实例，可以直接使用

2018-08-06

自动登录开心网，并给好友发信息

java模拟登陆开心网，给好友发送消息,获取消息条数，commons-httpclient-3.1.jar，commons-codec-1.3，jar 完全用java代码虚拟登陆开心网，可用给好友群发消息，获取消息条数等等，里面已经包含说需要的jar文件。你可以通过登录开心网的学习登陆其他的网站…… 经测试，修改相关参数在校内网有效

2013-01-25