2015年11月_young-ming

12月 11月 10月 09月 08月

原创 hive使用orcfile parquet sequencefile

1、orcfile的使用创建orcfile表，不压缩 create table d_op_behavior_host_orc_none(thedate string, id string,

2015-11-26 15:01:25 5376

原创 nagios配置监控hadoop日志

被监控服务器定义检查datanode日志命令vi /usr/local/nagios/etc/nrpe.cfgcommand[check_datanode_log]=/usr/local/nagios/libexec/check_log -F /var/log/hadoop-hdfs/hadoop-hdfs-datanode-`hostname`.log -O /var/nagios/old

2015-11-26 11:41:29 1078

原创 nagios搭建

准备wget http://prdownloads.sourceforge.net/sourceforge/nagios/nagios-3.2.0.tar.gzwget http://nagios-plugins.org/download/nagios-plugins-2.0.3.tar.gzwget http://prdownloads.sourceforge.net/sou

2015-11-26 11:40:04 487

原创 hadoop存储测试

目标测试hadoop常见的几种存储格式textfile、orcfile、parquet、sequencefile占用存储空间以及在hive、impala、presto的查询效率测试结果存储格式未压缩压缩后(snappy)impalaprestohivetextfile35G10.1G5s5s47sorc

2015-11-26 10:01:10 1050

原创 impala presto SparkSql性能测试对比

目标是为测试impala presto SparkSql谁的性能更佳，以下结果底层查询的都是普通textfile snappy压缩后数据，规模为15台机器，若以orcfile、parquet速度能快数倍impala与presto性能相当，SparkSql逊色不少。目前看presto相比impala1、与hive实时共享元数据，impala需要用另外定时任务广播元数据，新生成的数

2015-11-20 11:46:10 22365 2

原创 presto实时查询引擎搭建

1、下载presto https://repo1.maven.org/maven2/com/facebook/presto/presto-server/注意从0.86版本后只支持java 8，这里使用0.85版本+java 7，不然会出现java.lang.UnsupportedClassVersionError: com/facebook/presto/server/PrestoSe

2015-11-20 11:23:01 3065 2

原创 SparkSql搭建

Spark on yarn已搭建好，开始使用SparkSql，做如下工作

2015-11-19 20:19:02 1017

原创 ip库处理

原始的纯真ip库有两个问题1、地区没有拆分国家省市区县，需要程序二次拆分2、有一些不规范数据，即学校网吧之类的，排重手工整理程序里的ipdata xuexiao.csv可见http://download.csdn.net/detail/u011750989/9283149package com.java.ipku;import java.io.BufferedRea

2015-11-19 16:37:17 589

原创 hadoop java.io.IOException: Xceiver count 4097 exceeds the limit of concurrent xcievers

datanode出现 java.io.IOException: Xceiver count 4097 exceeds the limit of concurrent xcievershdfs-site.xml修改参数dfs.datanode.max.transfer.threads为8192 dfs.datanode.max.transfer.threads 8192

2015-11-12 10:12:34 1827

原创 flume文件名interceptor

从文件名提取日期、小时信息，决定数据发送到hdfs哪天哪小时的分区目录。需要自定义一个拦截器package interceptor;import java.util.List; import java.util.Map; import java.util.regex.Matcher; import java.util.regex.Pattern; import

2015-11-11 11:58:49 3261

转载 Flume NG 简介及配置实战

1、Flume 的一些核心概念：1.1 数据流模型1.2 高可靠性1.3 可恢复性2、Flume 整体架构介绍2.1 Exec source2.2 Spooling Directory Source3、常用架构、功能配置示例3.1 先来个简单的：单节点 Flume 配置3.2 单节点 Flume 直接写入 HDFS3.3 来一个常见架构：多 agent 汇聚

2015-11-11 11:33:23 596

转载 hbase常见命令

进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证，需要事先使用相应的keytab进行一下认证（使用kinit命令），认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)>whoami表的

2015-11-09 17:54:36 458

原创 tachyon搭建记录

目前官网下载的tachyon tar包只支持hadoop-2.2，如果自己的hadoop集群不是这个版本，会出现如下错误 2015-11-01 21:29:09,446 INFO (ClientBase.java:connect) - Tachyon client (version ${project.version}) is trying to connect with

2015-11-06 16:00:16 855

原创 pip lxml安装

安装setuptoolswget https://pypi.python.org/packages/source/s/setuptools/setuptools-18.5.tar.gz#md5=533c868f01169a3085177dffe5e768bb解压后 python setup.py install 安装pipwget https://pypi.python

2015-11-06 10:48:54 2968

原创 spark Compression codec com.hadoop.compression.lzo.LzoCodec not found

spark shell出现错误Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found. at org.apache.hadoop.io.compress.CompressionCodecFactory.getCo

2015-11-05 10:27:35 6121 1

oozie使用整理

此文档主要对oozie的使用方法，基本内容做了一次介绍。

2018-09-21

spark优化实践小记

此文档主要对日常使用spark过程中可能遇到的一些性能优化问题做了一次整理总结

2018-09-21

Percolator分布式事务

Percolator分布式事务介绍，基于BigTable的分布式事务实现

2018-09-21

处理后的ip库

ipku文件为对纯真ip库进行国家，省，市，区县拆分，学校网吧不规范数据处理后的可用文件 ipdata为原始纯真ip库 xuexiao.csv为手工整理的学校网吧对应的地区

2015-11-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人