Hadoop
文章平均质量分 81
jackydai987
这个作者很懒,什么都没留下…
展开
-
Hadoop常见问题及解决办法(转)
<br /><br />1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out <br />Answer:<br />程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。<br />修改办法:<br />修改2个文件。<br /> /etc/security/limits.conf<br />vi /etc/security/li转载 2011-03-04 13:07:00 · 3031 阅读 · 0 评论 -
Hadoop读取本地文件运算写再写入本地
前几天给大家写了个hadoop文件系统的操作类,今天来实际应用一下:从本地文件系统读入一个文件,运算后将结果再写回本地。闲话少说,直接上代码:public class mywordcount { public static class wordcountMapper extends Mapper{ private final static IntWritable one = new IntWritable(1); private Text word = new Text();原创 2011-03-07 22:26:00 · 14601 阅读 · 7 评论 -
人民大学云计算编程的网上评估平台--解题报告 1004-1007
1004: 题目Single Table Join描述输入文件是一个包含有子女-父母表的文件。请编写一个程序,输入为此输入文件,输出是包含在子女-父母表中的孙子女-祖父母关系表。输入输入是包含有子女-父母表的一个文件输出输出是包含有孙子女-祖父母关系的一个文件,孙子女-祖父母关系是从子女-父母表中得出的。样例输入child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry原创 2011-03-26 00:17:00 · 3239 阅读 · 2 评论 -
人民大学云计算编程的网上评估平台--解题报告 1001-1003
<br />这几天忙着找实习,所以日志耽搁了,现在来补起~~。<br />相信很多人都知道 PKU Online Judge,现在中国人民大学也提供了一个类似的平台,但与北京在线评判系统不一样的是,中国人民大学的这个系统是专门评判mapreduce编程题的。<br />我把链接发出来,大家可以去试着做看看: http://cloudcomputing.ruc.edu.cn/index.jsp<br />大家在做题前,先看看“常见问题”根据系统要求的格式来写程序。不然不能正常运行。(我就是直接运行错了3次。原创 2011-03-25 23:29:00 · 3431 阅读 · 10 评论 -
运用hadoop计算TF-IDF
这几天一直在忙着找暑假实习,实在没精力来写新的文章。刚好这几天放假,我把前几天做了的另一个例子拿出来跟大家分享一下。这个例子是使用hadoop来实现TF-IDF。TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。具体的信息就麻烦大家自己百度一下了。因为要实现的细节比较多,所以我直接将代码放上来。大家可以参看代码里面的注释,我写的比较详细。我采用了两个MapReduce任务顺序执行来实现TF-IDF功能。public原创 2011-04-05 21:25:00 · 9613 阅读 · 15 评论 -
自定义InputFormat
这几天准备好好看看MapReduce编程。要编程就肯定要涉及到输入、输出的问题。今天就先来谈谈自定义的InputFormat我们先来看看系统默认的TextInputFormat.java public class TextInputFormat extends FileInputFormat { @Override public RecordReader createRecordReader(InputSplit split, Ta原创 2011-03-05 21:51:00 · 9423 阅读 · 3 评论 -
MapReduce流程分析
<br />MapReduce流程分析<br />接触Hadoop已经1年了,一直没时间好好学习下。这几天打算好好研究下Hadoop.本来是想打算改写下TextInputFormat。看了源码后,反而更迷糊了。所以干脆连MapReduce的整个流程写下来。也当为这几天的学习作个总结。<br />先来一个我们常写的main函数。<br />Configuration conf = new Configuration();<br /> String[] otherArgs = new原创 2011-03-06 18:13:00 · 5148 阅读 · 4 评论 -
hadoop下的程序测试及调试信息
<br />今天不是什么新的内容,主要介绍下0.20版本下hadoop的调试、计数器、调试信息输出等内容。<br />相信很多人学习hadoop都是从hadoop权威指南开始的,但权威指南使用的hadoop版本是0.19版本的,而有部分人(其中包括我)使用的0.20版本的。相信大家都知道0.20版本相对于0.19版本有了重大的改变。提供了一系列新的API。具体哪些我这里就不具体说了。其中一个跟测试、调试密切相关的就是在0.20版本出现了Context object(上下文对象).所以本篇日志就记录一下我在原创 2011-05-25 23:51:00 · 3923 阅读 · 3 评论 -
搭建Hadoop环境(在winodws环境下用虚拟机虚拟两个ubuntu系统进行搭建)
这是我2010年写的hadoop搭建过程,现在重新发出来,当作hadoop学习的开始。俗话说的好:计划赶不上变化,这几天还真在我身上应验了。原计划4小时完成,结果40小时才...不写篇日志,简直对不起我的一片苦心。这周五计划搭建Hadoop环境(在winodws环境下用虚拟机虚拟两个ubuntu系统进行搭建)。先介绍下准备工作: 1: Hadoop 0.20.2 (官网原创 2011-03-04 12:25:00 · 3710 阅读 · 1 评论 -
MapReduce下的数据传递
好久没写点文章了,上一篇文章都是4月的了。实在不应该。实习是解决了,但随后的事那简直多了去了。实验报告、课程设计、比赛、论文、软考、考试。我嘞个去,杂那么多哟~~ 忙是忙,但还是不要忘里学习。今天来讨论上次做TF-IDF时遇到的问题。MapReduce下的数据传递。我们写MapReduce程序时,有时需要将一定的值(这里是少量 的)从cilent传到map或者reduce.又或者从map传到reduce。我们先来讨论比较简单的第一种。解决办法,在main()函数中通过xml文件设定需要传送的值。然后在map原创 2011-05-24 00:59:00 · 5819 阅读 · 5 评论 -
Hadoop的MapReduce中多文件输出
<br />这两天在网上看了个MapReduce的多文件输出的帖子: http://blog.csdn.net/inkfish。写的不错。<br />我试着完成了一下。也是分为三个文件:我这三个文件,跟原作者的稍有不同。其中有些类是我原来写的,我直接拷贝过来的,所以有点不同。<br />My_LineRead.java <br />public class My_LineRead<K, V> extends RecordWriter<K, V>{ private static final String转载 2011-03-12 21:09:00 · 9233 阅读 · 2 评论 -
Hadoop自定义读取文件
今天从网上看到点数据,很适合用MapReduce来分析一下。一条记录的格式如下:[**] [1:538:15] NETBIOS SMB IPC$ unicode share access [**][Classification: Generic Protocol Command Decode] [Priority: 3] 09/04-17:53:56.363811 168.150.177.165:1051 -> 168.150.177.166:139TCP TTL:128 TOS:0x0 ID:4000 I原创 2011-03-12 21:02:00 · 3034 阅读 · 4 评论 -
hadoop主节点(NameNode)备份策略以及恢复方法
<br />本文转帖来自:http://jiajun.javaeye.com/blog/809125<br /> <br />一、dits和fsimage<br /><br /> 首先要提到两个文件edits和fsimage,下面来说说他们是做什么的。<br />集群中的名称节点(NameNode)会把文件系统的变化以追加保存到日志文件edits中。当名称节点(NameNode)启动时,会从镜像文件 fsimage 中读取HDFS的状态,并且把edits文件中记录的操作应用到fsimage,也就是合并转载 2011-03-06 12:01:00 · 3986 阅读 · 0 评论 -
cleanup的使用
今天在论坛上看见一个函数cleanup。查了下API。发现Mapper和Reducer都实现了这个函数。描述:cleanupprotected void cleanup(Mapper.Context context) throws IOException, InterruptedExceptionCalled once at the end of the task. Throws: IOException In原创 2011-03-05 22:48:00 · 2525 阅读 · 0 评论 -
HDFS添加和删除节点
From http://developer.yahoo.com/hadoop/tutorial/module2.htmlRebalancing Blocks如何添加新节点到集群:New nodes can be added to a cluster in a straightforward manner. On the new node, the same Hadoop version and configuration (conf/hadoop-site.xml ) as on the rest of转载 2011-03-07 11:45:00 · 1614 阅读 · 0 评论 -
自定义OutPutFormat
昨天学习了自定义InputFormat,今天又去看了看TextOutFormat.java的源码。一样比较简单。现在我们来实现自定义的OutPutFormat先上代码:public class MyOutputFormat extends FileOutputFormat{//可以看到这里继承了FileOutputFormat,这个类一样可以自己改写。 protected static class MyRecordWriter extends RecordWriter {//这里实现了自己的原创 2011-03-06 22:12:00 · 6628 阅读 · 1 评论 -
利用JavaAPI访问HDFS的文件
<br />1、重读配置文件core-site.xml<br />要利用Java客户端来存取HDFS上的文件,不得不说的是配置文件hadoop-0.20.2/conf/core-site.xml了,最初我就是在这里吃了大亏,所以我死活连不上HDFS,文件无法创建、读取。<br /><?xml version="1.0"?><br /><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><br /><configuration><br /><!转载 2011-03-05 13:30:00 · 2446 阅读 · 0 评论 -
hadoop Java接口 文件操作类
前几天看到篇文章,是用java的API操作HDFS的文件系统。那篇文章是单独介绍,为了以后方便使用,我写成了一个类方便使用。文件操作类:比较简单,大家也可以自己完善。import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;原创 2011-03-06 17:25:00 · 7531 阅读 · 5 评论