hadoop-MR
文章平均质量分 74
爱哭的猫ff
在校软件工程学生
展开
-
MR-找朋友
A B C D E FB A C D EC A B ED A B EE A B C DF A每一行第一个代表本人,后面的是他的朋友,找出有共同朋友的人以及是谁。下面是我的源代码,仅供参考。package findfriends;import java.io.IOException;import java.util.Set;import java.util原创 2015-08-27 11:30:42 · 786 阅读 · 0 评论 -
java.lang.RuntimeException: java.lang.NoSuchMethodException: tfidf$Reduce.<init>()
今天运行hadoop突然出现一个问题!java.lang.RuntimeException: java.lang.NoSuchMethodException: tfidf$Reduce.() at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:115) at org.apach原创 2015-11-13 16:56:34 · 1450 阅读 · 0 评论 -
自定义输出文件名
package selfname; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; //import org.apache.hadoop.mapreduc原创 2015-08-29 15:42:16 · 1306 阅读 · 0 评论 -
自然链接
例如,我们需要在属性ID上做关系R和关系S的自然连接。在Map阶段对于每一条R和S中的记录r,我们把它的ID的值作为键,其余属性的值以及R(S中的记录为S的名称)的名称作为值输出出去。在Reduce阶段我们则将统一键中所有的值,根据他们的来源(RR和S)分为两组做笛卡尔乘积然后将得到的结果输出出去。 例如以上面的关系R和关系S为例。关系R中ID为1的记录会以键值对(1,(rel原创 2015-09-02 18:25:57 · 579 阅读 · 0 评论 -
如何确定map以及reduce的个数
原文链接:http://www.aboutyun.com/thread-6945-1-1.html一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的goalSize = totalSize / mapred.map.tasksinSize = max {mapred.min.split.size, minS转载 2015-09-01 19:36:27 · 661 阅读 · 0 评论 -
Reducer类阅读
Reducer类中主要有setup,run,reduce,cleanup这几个函数。/** * Called once at the start of the task. */ protected void setup(Context context ) throws IOException, InterruptedExceptio转载 2015-09-01 20:53:38 · 361 阅读 · 0 评论 -
mapreduce设置分区partition
在执行MR程序时我们可能想要将不同的数据放到不同的文件中。比如说想要将相同省份的信息放到一个文件中,不同省份的信息放在不同的文件中。这个时候如果有多个reduce的话就可以将相同的省份放到同一个reduce中,这样就可以将相同的省份放到同一个文件中。partition是在map阶段完成后执行的。将分好区的数据传输到reduce端。mapreduce中默认的分区是HashPartition。原创 2015-09-01 17:36:43 · 2532 阅读 · 0 评论 -
彻底了解mapreduce核心Shuffle--解惑各种mapreduce问题
Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么,那么请看这张图: 这张是官方对Shuffle过程的描述。但我可以肯定的是,单从这张图你基本不可能明白Shuffle的过程,因为它与事转载 2015-08-28 18:43:48 · 298 阅读 · 0 评论 -
预处理和后处理阶段的链接
Hadoop关于预处理和后处理作业的链接提供了两种解决方案。方案一:为预处理和后处理步骤各自编写一个MapReduce作业,并将其链接起来。在这些步骤中可以使用IdentityReducer。而在此过程中每一个步骤的中间结果都需要占用I/O和存储资源,所以这种方案是非常低效的,一般情况下Hadoop是不建议使用的。方案二:自己组合mapper和reducer,也就是说自己写mapper去预原创 2015-08-28 17:48:45 · 577 阅读 · 0 评论 -
重新格式化hadoop
首先将hdfs-site.xml文件中的代码片 dfs.name.dir /home/hadoop/hdfs/name namenode上存储hdfs名字空间元数据 dfs.data.dir /home/hadoop/hdsf/data dat原创 2015-10-14 20:01:25 · 626 阅读 · 0 评论