Hadoop
lantianjialiang
这个作者很懒,什么都没留下…
展开
-
Distributed Cache in Hadoop
@Distributed Cache in HadoopDistributed Cache in HadoopDistributed Cache是Hadoop MapReduce提供的一个工具。它可以给我们的Worker(Map/Reduce Jobs)提供cache数据。这些数据可以是文本,压缩文件,jar文件等。一旦我们班cache文件配置好都,Hadoop会确保我们的Workder在各个...转载 2018-09-21 09:18:33 · 382 阅读 · 0 评论 -
MultipleOutputs in Hadoop
MultipleOutputs,说白了就是你想在Reduce中,将结果写到不同的文件中去的时候,来用的。看看Hadoop的官网的例子和解释:我们的Driver代码中使用到了MultipleOutputs,并且配置了两个输出前缀,分别是seq额text。 Job job = new Job(); FileInputFormat.setInputPath(job, inDir); File...转载 2018-09-21 09:36:43 · 166 阅读 · 0 评论 -
RecordReader and InputFormat vs OutputFormat and RecordWriter
RecordReader and InputFormat vs OutputFormat and RecordWriterInputFormat从HDFS中读取文件,InputFormat abstract类中有一个方法是getSplits,会返回这么文件要分成几个InputSplit。一般来说一个InputSplit会对应的一个Map task上去。每个Map task会通过Recor...转载 2018-09-21 09:59:14 · 178 阅读 · 0 评论 -
partitioner in Hadoop
partitioner用来控制map task的中间输出记录的所处的分组的。partitioner的接口如下:abstract int getPartition(KEY key, VALUE value, int numPartitions)通常我们使用Record的key来计算分组的值,计算方法一般是hash。分组的总数和reduce task的个数一样,如果reduce task的...转载 2018-09-22 14:00:32 · 163 阅读 · 0 评论