Hadoop mapreduce
小田同学tdx
这个作者很懒,什么都没留下…
展开
-
hdoop 文本数据按列去重
问题描述: 多个数据源的文件合并,根据具体几列(根据需求确定到底是几列)的值确定行的唯一性,删除掉重复的行。我们假设我们的需求是根据文本的前3列来确定行的唯一性,对于重复的行,我们随机选取一行的数据进行保留,不需要考虑其他列的数据。 实际应用中,我们对不同的业务表合并时,可能有这方面的需求,这里我举的例子可能业务说明性不强,但是逻辑一样。 是所以选择使用mapreduce ,原创 2017-01-07 13:07:09 · 458 阅读 · 0 评论 -
使用MapReduse 处理 SequenceFile
为了解决大量小图片在HDFS存储是存储在的问题,将小图片存储到SequenceFile中,然后通过MapReduce函数对SequenceFile文件进行操作。 用过设置,job的输入文件格式得到SequenceFile中的数据,代码如下:package com.wang; import java.io.IOException; import org.apache.hadoop.conf.Co原创 2017-10-10 15:22:28 · 386 阅读 · 0 评论