![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
StevenCoder
SDE in MS
展开
-
sequencefile 和arraywritable问题解
arraywritable的问题还是由sequencefile 来解决新的recordreader不再是继承sequencefilerecordreader,而是继承recordreader,按照sequencefilerecordreader的方式来写有个问题是nextkeyvalue函数里,都要求参数是object类型,在此可以用objectwritable来解决还有arraywritable没有参数个数为零的构造函数,会导致Map到Reduce过程中传输问题。可以继承arraywritable,自己来原创 2010-06-26 20:34:00 · 948 阅读 · 0 评论 -
HDFS源码剖析第一篇:Hadoop Configuraion
HDFS源码剖析第一篇:Hadoop Configuraion原创 2015-05-11 13:18:52 · 833 阅读 · 0 评论 -
Hadoop的M-R中间任务分配
Hadoop中,JobTracker会定期与tasktracker保持心跳。tasktracker会告知JobTracker是否上面有task在工作。如果没有,JobTracker会从task的队列中取出一个task交给相应的tasktracker。这个reducetask的ID原创 2010-08-01 21:37:00 · 811 阅读 · 0 评论 -
Hadoop的sequence File
<br />第一次写自定义类型的sequence File。<br />发现必须继承两个文件一个是sequenceFileinputformat,一个是sequenceFileRecordReader。<br />发现虽然Hadoop中有arraywritable类型,但是很难使用。<br />无论是哪种inputformat,其读取key/value对时,无论是以byte[],还是String ,都无法将value还原回array。<br />如果用object,还是会降低效率。<br />最好都用Tex原创 2010-06-10 23:01:00 · 1456 阅读 · 0 评论 -
Hadoop的combiner尝试
Hadoop样例代码中的wordcount使用了combiner。但对于map的输出形式与reduce输出形式不一样的应用,直接使用reduce函数进行combiner会出错。因此,必须自己重写combiner。在撰写含有combiner的应用时,需注意,对于所有Map的输出,并非一定都经过combiner步骤,可能直接的读写就进入了reduce。而且combiner虽然能减少IO,但是会增加Map时间(等于多做了一次reduce),能否提高总体性能要看实际情况而定。原创 2010-06-08 18:37:00 · 1992 阅读 · 0 评论 -
Hadoop数据分配
在Hadoop分配任务时,可以由一步MapReduce将数据拆分,每一份放在一个结点上。 经过观察,每一份被分配到的结点是确定而非随机的。 而HDFS上的文件,可以在Hadoopfs/data/current/ 下被本地访问。可以用文件创建时间来区分block(最新).原创 2010-07-29 21:45:00 · 617 阅读 · 0 评论 -
Hadoop 的lzo压缩尝试
<br />具体设置见那两个网页,一个是hadoop-gpl-compression 的wiki,一个是[hadoop系列]hadoop-gpl-compression的安装和编译<br />切记要<br /><property> <br /><name>mapred.compress.map.output</name> <br /><value>true</value> <br /></property> <br /><property> <br /><name>mapred.map.output.com原创 2010-07-12 00:54:00 · 475 阅读 · 0 评论 -
Hadoop namenode宕机问题。
<br />最近Hadoop平台常常出现问题,应该是namenode的问题,空间不足,无法写入之类。<br />现阶段发现的原因是tmp文件夹,都删除后格式化,问题暂时没再出现原创 2010-06-26 20:29:00 · 1921 阅读 · 0 评论 -
基于图的PageRank on Hadoop
老板一直希望我们能用图分割的方法来做PageRank on Hadoop。但是涉及困难很多,一直无法下手。今天看着程序慢慢的运行,感慨收敛速度慢的要死,终于有些新想法。也算是给基于图的PageRank on Hadoop开一个头。可以先将图分割,在这里可以分的多一点,例如50张。暂不考虑单机处理和单图收敛问题。如果某一张图判断已收敛,就将其遗弃。以减轻I/O。单张图收敛次数应该小于全局。使收敛更快。求图切割算法ing.原创 2010-06-27 16:47:00 · 883 阅读 · 0 评论