superye1983-CSDN博客

原创 Thrift lua example

最近做个项目，想法是nginx＋lua＋thriftthrift是一个比较流行的rpc框架，很多公司都有大规模使用的经验，不过网上很少有关于thrift－lua的介绍和exampleapache的thrift－lua也是刚刚从fbthrift项目引入，在安装过程中踩了一些坑，记录一下首先是版本问题，apache-thrift的最新版本是0.9.3，这个版本支持的lua版本是5.

2016-04-19 16:01:02 2922

翻译 centos6.4安装GCC4.8 Ｃ＋＋１１

参考资料http://superuser.com/questions/381160/how-to-install-gcc-4-7-x-4-8-x-on-centos/542091#542091其实就是安装一个工具devtoolsgcc４.８对应devtools２资料http://people.centos.org/tru/devtools-2/readme具

2015-09-07 12:08:34 5721

原创 Hbase merge multiple region

假设你的table有10个region，他们的名字分别为1，2...10Hbase 并没有提供直接合并 2-8这7个region的方法，如果你要合并多个region，那要稍微麻烦一点，具体方法如下首先使用Hbase shell自带的merge_region方法：Merge two regions. Passing 'true' as the optional third paramet

2015-03-04 18:12:32 2106

原创使用rmp包安装impala1.4.1

首先安装impala依赖包添加repo使用yum安装sudo wget -O /etc/yum.repos.d/bigtop.repo http://www.apache.org/dist/bigtop/bigtop-0.7.0/repos/centos5/bigtop.reposudo yum install bigtop-utilshadoop使用的cdh版本为5.1.

2015-01-19 17:49:19 3906 1

原创 cloudera-manage 安装报错

Installation failed. Failed to receive heartbeat from agent. Ensure that the host's hostname is configured properly. Ensure that port 7182 is accessible on the Cloudera Manager Server (c

2014-12-16 15:02:54 1428

原创安装implala报错找不到jdbc

错误信息:Log line format: [IWEF]mmdd hh:mm:ss.uuuuuu threadid file:line] msgE1127 16:39:33.860738 22207 catalog.cc:70] java.lang.IllegalStateException: javax.jdo.JDOFatalInternalException: Error creat

2014-11-27 16:53:12 1439

原创导入protobuf源码报错

导入protobuf的源码作为一个项目查看，结果都是红叉叉，有些类找不到真是奇怪源码怎么可能直接有错，部分找不到的类如下DescriptorProto cannot be resolved to a typeMessageOptions cannot be resolved to a type最后在JAVA文件夹下的README.txt文件中找到答案，部分源码需要自己生成执行如

2013-12-06 16:03:02 2175

原创在cdh5-yarn上运行map-reduce

在cdh5版本的yarn上运行一个map-reduce任务结果报错，信息如下2013-11-28 15:31:04,978 WARN org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch: Failed to launch container.java.io.FileNotFo

2013-11-29 10:50:24 4675 1

原创 Hadoop CDH5 手动安装伪分布式模式

CDH5已经使用了Hadoop2.2.0重新弄个虚拟机重头装一下由于Cloudera强烈建议使用rmp包或者apt-get的方式安装，一时半刻我都没有找到手动安装的说明，在安装的遇到多个问题，稍作记录首先环境要求 JDK1.7_u25+ Maven3.0.5 protoc2.5

2013-11-22 16:52:06 9775 1

原创在Maven中generate-protobuf

在maven中generate-protobuf有2种方法1是使用protobuf的maven插件，不过作者是开发的maven2的插件，而且有2年没更新了所以我选择了第二种方法就是使用mavn的ant插件，整个配置和ant很像，稍作调整即可，具体配置如下 maven-antrun-plugin compile-protoc

2013-08-20 14:33:32 9503

原创用awk解压多个文件

tar好像不支持解压多个文件使用awk做个循环就可以了ls a/*.tar.gz|awk '{print $NF}' | xargs -t -i tar -xzf {} -C b解压a目录下的所有.tar.gz到b目录

2013-05-24 15:08:32 966

原创 oozie rerun job in 2.3.0-cdh3u0

当一个oozie job运行失败后可以使用rerun参数重跑job由于我的oozie版本比较旧，文档中是这样说的oozie.wf.application.pathoozie.wf.rerun.skip.nodesAbove two are mandatory configs.Skip nodes are comma separated list of action names. T

2013-04-15 17:42:18 2132 1

原创 pentaho-hadoop-cdh3u0配置

安装了pentaho data integration4.4下载地址点击打开链接我用的hadoop版本为cdh3u0新建一个job将文件从本地拷贝到云上结果报错如下ERROR 10-04 10:51:15,842 - Hadoop Copy Files - Can not copy file/folder [file://weblogs_rebuild/weblogs_rebu

2013-04-10 11:35:58 3963

原创 Maven3.0.5运行junit，slf4j报错

在maven中运行junit单元测试报错如下：java.lang.NullPointerException at org.slf4j.helpers.MessageFormatter.arrayFormat(MessageFormatter.java:109) at org.slf4j.impl.Log4jLoggerAdapter.info(Log4jLo

2013-03-28 14:35:16 1205

原创使用nexus作为maven私有中央仓库，启动出错

最近将项目从ant迁移到maven并且使用Nexus建立一个私有的中央仓库（网上有很多相关的资料）在启动nexus的时候报错启动失败，且部分错误信息非nexus打印错误信息：********* simple selection ********* ********* selection by list *********-A all processes

2013-03-28 10:54:11 2118

原创使用nohup在后台运行scp

需要从远程拷贝一个比较大的文件，所以要让SCP在后台运行google搜了一下都是说使用ssh的public key让两台机器可以不用密码连接但不是每个人都有这个条件允许两台机器无密码通行的所以可以使用下面的方法实现1.nohup scp user@server:path/file localpath2.输入密码3.按Ctrl+z挂起当前进程4.使用命令bg让挂起的进程继

2012-12-12 10:42:43 10079 1

原创在pig中读取RCFILE文件

RCFILE是FACEBOOK公司使用的一种数据存储结构通过把相同列的数据存放在一起从而得到一个很高的压缩比RCFILE集成在HIVE中，在HIVE并没有提供PIG读取数据的结构但是在PIG的第三方库中有人贡献了读取RCFILE的PIGLOAD接口HiveColumnarLoader使用方法很简单：/*先注册jar包，需要用到的有这样3个*/register /tmp/pi

2012-12-10 14:34:15 1645

原创 Hadoop Archive小记

Hadoop中所有文件的信息都记录在Namenode的内存中因为Hadoop的设计是处理大数据，理想的数据文件应该是BLOCKSIZE的倍数为了避免小文件占用过多的系统内容,Hadoop提供了Archive来管理小文件不过har有可能使用的不是很多，在hive，pig，甚至hadoop中都有一些BUG，很多应用都有问题在这里做个记录1.文件夹模糊匹配在使用hadoop

2012-12-03 16:21:33 1846

原创在map中获取当前数据所属文件名

很多业务逻辑在处理数据时和文件名进行了绑定所以在做MAP的时候需要知道这条数据是从哪个文件而来这句语句可以获得文件名String fileName = ((FileSplit)context.getInputSplit()).getPath().getName();

2012-11-28 19:53:55 829

原创通过获取HDFS目录/文件夹大小来控制reduce个数

一般map的个数系统会根据文件block数量来获取而reduce个数一般默认1个，在每个JOB用户根据自己的需要自己调整但是往往同一个JOB在不同目录下获取的数据大小相差很多，所以要根据每次获取数据的大小来确定reduce public static long getDirSize(Path dir, Configuration conf) throws IOException{

2012-11-28 14:48:26 4207

原创 Exception in thread "main" java.io.IOException: Permission denied

新集群配置点工具，在运行PIG的时候报错Exception in thread "main" java.io.IOException: Permission deniedat java.io.UnixFileSystem.createFileExclusively(Native Method)at java.io.File.checkAndCreate(File.java:1704)

2012-10-17 13:48:24 5085

原创 Pig Distinct by fields

PIG自带的distinct只支持整条记录相同的过滤，并不支持对某些字段的distinctPIG的说明如下You cannot use DISTINCT on a subset of fields. To do this, use FOREACH…GENERATE to select the fields, and then use DISTINCT (seeExample: Nested

2012-10-10 14:01:24 2339

原创 task tracker最大任务数设置

用oozie跑一个workflow这个workflow包含多个sqoop和pig脚本刚开始跑就发生了问题，具体情况为:sqoop启动的job，map显示100%，状态为runningreduce 0%然后无反映，一直处于等待状态原因是我在本机伪分布式模式下默认的mapreduce个数为2而在oozie的workflow中有多个任务要运行且有先后顺序先启动的任务占了slo

2012-09-18 13:46:07 1903

原创 Hive笔记--安装

Hive的安装其实很简单下载tar包解压，然后配置一下HIVE_HOME和系统PATH就可以了然后运行hiveLogging initialized using configuration in jar:file:/home/kira/src/hive/current/lib/hive-common-0.8.1.jar!/hive-log4j.propertiesHive histor

2012-09-10 16:28:01 13897 4

原创 HBase笔记 ERROR: org.apache.hadoop.hbase.MasterNotRunningException: null

早上启动hadoop，然后马上启动hbase进入hbase shell查询一张表，结果报错：ERROR: org.apache.hadoop.hbase.MasterNotRunningException: null报错写的很清楚MasterNotRunningException先说一下环境是本机伪分布式模式那就JPS看一下启动情况4065 DataNode4318

2012-09-04 13:59:55 3695

原创 HBase笔记 hadoop.hbase.NotAllMetaRegionsOnlineException

有空装个HBase玩玩之前Hadoop等环境已经有了，所以想了解Hadoop的安装可以google一下最主要的就是系统环境参数都配好，比如HADOOP_HOMEZOOKEEPER_HOMEHBASE_HOME在HBASE_HOME/conf/hbase-site.xml中加入配置hadoop namenode的参数 hbase.rootdir h

2012-09-03 15:04:32 2475

转载 Apache Pig的一些基础概念及用法总结

深入浅出，转一个转载必须注明出处：http://www.codelast.com/转载地址本文可以让刚接触pig的人对一些基础概念有个初步的了解。本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程（由Google搜索可知），文中的大量实例都是作者Darran Zhang（website: codelast.com）在工作、学习中总结的经验或解

2012-08-17 16:47:52 8686

转载下代MapReduce预览

摘要：根据目前的状况来看，Hadoop作为企业级数据仓库体系结构核心技术，在未来的数年中将会保持持续增长的势头。下一代的MapReduce节点数将从目前的4000增加到6000-10000，其次并发的任务数从目前的40000增加到100000。原文地址

2012-08-17 10:54:57 611

superye1983的专栏