hadoop
wgyang_gz
这个作者很懒,什么都没留下…
展开
-
Hadoop Mapreduce 中的FileInputFormat类的文件切分算法和host选择算法
文件切分算法 文件切分算法主要用于确定InputSplit的个数以及每个InputSplit对应的数据段。 FileInputFormat以文件为单位切分成InputSplit。对于每个文件,由以下三个属性值确定其对应的InputSplit的个数。 goalSize:根据用户期望的InputSplit数据计算,即totalSize/numSplit。totalSize为文件总大小;numS...原创 2018-08-12 20:57:54 · 654 阅读 · 0 评论 -
Haoop Mapreduce 中的FileOutputFormat类
FileOutputFormat类继承OutputFormat,需要提供所有基于文件的OutputFormat实现的公共功能。 主要有以下两点: (1)实现checkOutputSpecs方法 checkOutputSpecs方法一般在作业被提交到JobTracker之前,由JobClient自动调用,以检查输出目录是否存在,如果目录存在则抛出异常,以防止之前的数据被覆盖。 (2)处理side-...原创 2018-08-13 23:14:41 · 502 阅读 · 0 评论 -
Hadoop Mapreduce 中的Partitioner
Partitioner的作用的对Mapper产生的中间结果进行分片,以便将同一分组的数据交给同一个Reduce处理,Partitioner直接影响Reduce阶段的负载均衡。 MapReduce提供了两个Partitioner实现:HashPartitioner和TotalOederPartitioner。 HashPartitioner是默认实现,实现了一种基于哈希值的分片方法,代码如下: ...原创 2018-08-13 23:19:33 · 213 阅读 · 0 评论