- 博客(15)
- 资源 (4)
- 收藏
- 关注
原创 hive使用orcfile parquet sequencefile
1、orcfile的使用创建orcfile表,不压缩 create table d_op_behavior_host_orc_none(thedate string, id string,
2015-11-26 15:01:25 5376
原创 nagios配置监控hadoop日志
被监控服务器定义检查datanode日志命令vi /usr/local/nagios/etc/nrpe.cfgcommand[check_datanode_log]=/usr/local/nagios/libexec/check_log -F /var/log/hadoop-hdfs/hadoop-hdfs-datanode-`hostname`.log -O /var/nagios/old
2015-11-26 11:41:29 1078
原创 nagios搭建
准备wget http://prdownloads.sourceforge.net/sourceforge/nagios/nagios-3.2.0.tar.gzwget http://nagios-plugins.org/download/nagios-plugins-2.0.3.tar.gzwget http://prdownloads.sourceforge.net/sou
2015-11-26 11:40:04 487
原创 hadoop存储测试
目标测试hadoop常见的几种存储格式textfile、orcfile、parquet、sequencefile占用存储空间以及在hive、impala、presto的查询效率测试结果存储格式未压缩压缩后(snappy)impalaprestohivetextfile35G10.1G5s5s47sorc
2015-11-26 10:01:10 1050
原创 impala presto SparkSql性能测试对比
目标是为测试impala presto SparkSql谁的性能更佳,以下结果底层查询的都是普通textfile snappy压缩后数据,规模为15台机器,若以orcfile、parquet速度能快数倍impala与presto性能相当,SparkSql逊色不少。目前看presto相比impala1、与hive实时共享元数据,impala需要用另外定时任务广播元数据,新生成的数
2015-11-20 11:46:10 22365 2
原创 presto实时查询引擎搭建
1、下载presto https://repo1.maven.org/maven2/com/facebook/presto/presto-server/注意从0.86版本后只支持java 8,这里使用0.85版本+java 7,不然会出现java.lang.UnsupportedClassVersionError: com/facebook/presto/server/PrestoSe
2015-11-20 11:23:01 3065 2
原创 ip库处理
原始的纯真ip库有两个问题1、地区没有拆分国家省市区县,需要程序二次拆分2、有一些不规范数据,即学校网吧之类的,排重手工整理程序里的ipdata xuexiao.csv可见http://download.csdn.net/detail/u011750989/9283149package com.java.ipku;import java.io.BufferedRea
2015-11-19 16:37:17 589
原创 hadoop java.io.IOException: Xceiver count 4097 exceeds the limit of concurrent xcievers
datanode出现 java.io.IOException: Xceiver count 4097 exceeds the limit of concurrent xcievershdfs-site.xml修改参数dfs.datanode.max.transfer.threads为8192 dfs.datanode.max.transfer.threads 8192
2015-11-12 10:12:34 1827
原创 flume文件名interceptor
从文件名提取日期、小时信息,决定数据发送到hdfs哪天哪小时的分区目录。需要自定义一个拦截器package interceptor;import java.util.List; import java.util.Map; import java.util.regex.Matcher; import java.util.regex.Pattern; import
2015-11-11 11:58:49 3261
转载 Flume NG 简介及配置实战
1、Flume 的一些核心概念:1.1 数据流模型1.2 高可靠性1.3 可恢复性2、Flume 整体架构介绍2.1 Exec source2.2 Spooling Directory Source3、常用架构、功能配置示例3.1 先来个简单的:单节点 Flume 配置3.2 单节点 Flume 直接写入 HDFS3.3 来一个常见架构:多 agent 汇聚
2015-11-11 11:33:23 596
转载 hbase常见命令
进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)>whoami表的
2015-11-09 17:54:36 458
原创 tachyon搭建记录
目前官网下载的tachyon tar包只支持hadoop-2.2,如果自己的hadoop集群不是这个版本,会出现如下错误 2015-11-01 21:29:09,446 INFO (ClientBase.java:connect) - Tachyon client (version ${project.version}) is trying to connect with
2015-11-06 16:00:16 855
原创 pip lxml安装
安装setuptoolswget https://pypi.python.org/packages/source/s/setuptools/setuptools-18.5.tar.gz#md5=533c868f01169a3085177dffe5e768bb解压后 python setup.py install 安装pipwget https://pypi.python
2015-11-06 10:48:54 2968
原创 spark Compression codec com.hadoop.compression.lzo.LzoCodec not found
spark shell出现错误Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found. at org.apache.hadoop.io.compress.CompressionCodecFactory.getCo
2015-11-05 10:27:35 6121 1
处理后的ip库
2015-11-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人