自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

苏格拉底的毒堇汁

我非常清楚地知道,我并没有智慧,不论大的还是小的都没有。

原创 Filesystem closed

java.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java:232) at org.apache.hadoop.hdfs.DFSClient.access...

2014-11-11 20:58:35

阅读数 2962

评论数 0

翻译 [Practical Cassandra]CH2-数据模型

当为开始为你的keyspace创建数据模型的时候,首要事情就是忘记你知道的关于关系型数据建模的一切。关系型数据模型是被设计为用来高效存储,关系型查找,以及联系起关注点的。而Cassandra是被设计作为高性能和存储海量数据的。   与关系型数据库不同的是,Cassandra环境下的数据模型是建立...

2014-07-07 22:11:22

阅读数 1129

评论数 0

原创 [Exception记录]elephantbird.class.for.MultiInputFormat

java.lang.RuntimeException: elephantbird.class.for.MultiInputFormat is not set at com.twitter.elephantbird.mapreduce.input.MultiInputFormat.setTypeR...

2014-06-16 18:14:46

阅读数 1267

评论数 0

原创 添加新maven 公共repository

最近公司集群准备升级到CHD4U6,

2014-06-12 22:52:56

阅读数 1490

评论数 0

原创 java.lang.NoSuchMethodError: org.apache.thrift.EncodingUtils.setBit(BIZ)B

2014-04-28 00:49:04,219 FATAL org.apache.hadoop.mapred.Child: Error running child : java.lang.NoSuchMethodError: org.apache.thrift.EncodingUtils.setB...

2014-04-28 01:06:12

阅读数 3274

评论数 0

原创 使用MultipleOutputs遇到的问题小记

1、org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to create file /user/bjdata/user/wuyb/s...

2013-08-12 20:17:35

阅读数 2312

评论数 0

原创 使用MultipleInputs出现InstantiationException

Exception in thread "main" java.lang.RuntimeException: java.lang.InstantiationException at org.apache.hadoop.util.ReflectionUtils.newInsta...

2013-07-04 11:44:33

阅读数 3158

评论数 2

原创 Mahout in action书中源码导入eclipse

下载源码:http://www.manning.com/owen/MiA_SourceCode.zip解压缩后里面有readme安装好thrift、maven将pom.xml中的:改成,引号里面是thrift安装位置。将pom.xml中thrift的版本从0.6.1改成0.9.0,因为classi...

2013-04-21 20:29:12

阅读数 1860

评论数 0

原创 fedora下安装thrift

下载thrift :http://thrift.apache.org/解压缩:tar -xzvf ***.tar.gz进入目录: cd thrift-0.9.0 sudo yum install automake libtool flex bison pkgconfig gcc-c++ boos...

2013-04-21 16:13:56

阅读数 1314

评论数 0

原创 mapreduce作业调优tips

这几天一直在优化job,下面是我认为有用的一些tips。 推测执行在整个集群上关闭,特定需要的作业单独开启,一般可以省下约5%~10%的集群资源。由mapred.map.task.speculative.execution[default true]和mapred.reduce.task.s...

2013-01-30 18:50:48

阅读数 1818

评论数 0

原创 Pangool:行走在mapreduce之上

Tuple mapreduce:这篇文章:Tuple MapReduce: beyond classic MapReduce 介绍了Pangool的主体思想,利用tuple,在经典mapreduce上提供更易用的API。   特性: 支持三元组而不是key-value(直观上三元组...

2013-01-23 15:42:43

阅读数 1167

评论数 0

原创 mapreduce编程(一):输入文件的过滤

描述:dir/目录下存储了系统每一天的出现的cookie,各天的cookie分别存放在各自的dir/time目录下,如2012-12-21日的cookie存放在dir/2012-12-21目录下。    dir/2012-12-21下的各个文件存储的是出现的cookie,一个cookie的多次出现...

2013-01-18 11:55:37

阅读数 2760

评论数 0

原创 Could not resolve archetype org.apache.maven.archetypes:maven-archetype-quickstart

之前都是命令行创建,今天用eclipse装m2eclipse的时候装完后创建项目的时候报错:   Could not resolve archetype org.apache.maven.archetypes:maven-archetype-quickstart:RELEASE from any...

2013-01-15 11:57:36

阅读数 5436

评论数 2

原创 MapReduce程序的测试--MRUnit

实在没什么空,好长时间没有写Blog,心虚,没有去参加校园招聘的人伤不起~   MRUnit是一个开源的MapReduce程序测试框架,使用MRUnit,可以在单元测试的时候不用每次都上集群跑一遍,提高测试效率。   MRUnit官网:http://mrunit.apache.org/   ...

2012-10-31 00:38:46

阅读数 2758

评论数 1

原创 [Hadoop源码解读](六)MapReduce篇之MapTask类

MapTask类继承于Task类,它最主要的方法就是run(),用来执行这个Map任务。   run()首先设置一个TaskReporter并启动,然后调用JobConf的getUseNewAPI()判断是否使用New API,使用New API的设置在前面[Hadoop源码解读](三)MapR...

2012-09-08 01:16:21

阅读数 4382

评论数 0

原创 [Hadoop源码解读](五)MapReduce篇之Writable相关类

昨天出去玩了,今天继续。   前面讲了InputFormat,就顺便讲一下Writable的东西吧,本来应当是放在HDFS中的。   当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。Writable是Hadoo...

2012-08-26 12:12:55

阅读数 12213

评论数 1

原创 [Hadoop源码解读](四)MapReduce篇之Counter相关类

当我们定义一个Counter时,我们首先要定义一枚举类型: public static enum MY_COUNTER{ CORRUPTED_DATA_COUNTER, NORMAL_DATA_COUNTER };   然后,我们就可以在mapper或reducer里面增加它的值:...

2012-08-24 17:35:48

阅读数 5827

评论数 0

原创 [Hadoop源码解读](三)MapReduce篇之Job类

下面,我们只涉及MapReduce 1,而不涉及YARN。                                              当我们在写MapReduce程序的时候,通常,在main函数里,我们会像下面这样做。建立一个Job对象,设置它的JobNam...

2012-08-24 15:40:17

阅读数 6317

评论数 0

原创 [Hadoop源码解读](二)MapReduce篇之Mapper类

前面在讲InputFormat的时候,讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。   这一篇里,开始对Mapper.class的子类进行解读。   先回忆一下。Mapper有setup(),map(),cleanup()和run()...

2012-08-24 00:50:39

阅读数 22713

评论数 5

原创 [Hadoop源码解读](一)MapReduce篇之InputFormat

平时我们写MapReduce程序的时候,在设置输入格式的时候,总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按照我们想要的格式被读取。所有的输入格式都继承于InputFormat,这是一个抽象类,其子类有专门...

2012-08-23 17:20:51

阅读数 13854

评论数 12

提示
确定要删除当前文章?
取消 删除