【Mapred】输入数据的分片实质

http://blog.csdn.net/tracymkgld/article/details/17578593提到作业的提交的时候,输入数据需要分片,当时提到有新旧两种分片方式,那么这里就来看看什么是新方法,与旧方法有什么不同。

hadoop1.0.3依据参数  mapred.mapper.new-api的配置选择不同的切片方法。

同样在http://blog.csdn.net/tracymkgld/article/details/17578593已经简单讲了一下FileInputFormat这种输入数据类型的切分原理,实质就是根据切片大小,对数据位置即所在机器列表进行切分。然后把这些信息写到job.split文件里。

现在重新仔细研究一下,这个老切片方法切片大小是怎么确定的。


a、先根据文件总量(Byte数)和用户配置的map数,确定一个所谓的goal大小,就是目标大小,有时候用户是傻逼的,输入数据量和map数配置得并不合理,对吧,所以这个goal大小可大可小。如果太小了呢,不合理,为啥呢,因为一个map不管处理的数据大小,都得启动一个task,屁大点数据,你起1000个map显然是对资源的浪费,当然,切分也不好切,因为hdfs的块基本上有128M的或者256M的,64M的都很少,你切片如果10M,我日,256M的一个块,都得切20多片,这什么玩意,这就失去了切片的根本意义。基于这样一个原理,系统给出了最小分片大小的限制,这个东西也是用户可以选配的,mapred.min.split.size。

b、确定分片大小

Math.max(minSize, Math.min(goalSize, blockSize));
从这里可以看出,允许的分片大小可能得区间,如果配置的最小分片大小不大于一个数据块,那么分片大小要在(min,blockSize]区间内,最大取到一个块的大小。

如果你配置的最小分片大小更大,比如2个块那么大,那么所有的分片都是固定的,都按照你配置的大小来分。把真实的分片大小限制到不大于1个数据块的大小,为啥?你想想一个分片由多个块组成,一个分片肯定要交给一个map处理啊,这样后面排序的意义就没有了
    排序就是尽量让map避免从远端的机器拿数据,要本地化,现在一个分片就有多个block,那么一个分片不在一台机器上,map计算就必然要夸机器拿数据。

c、开始分,分的是啥,咋分?

        long bytesRemaining = length;//一个文件的总byte数,开始分的时候剩余就是总量嘛,没分嘛,擦
        while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {//SPLIT_SLOP = 1.1,就是说分到不足1个切片大小的时候就停了。
          String[] splitHosts = getSplitHosts(blkLocations, 
              length-bytesRemaining, splitSize, clusterMap);

重点看一下getSplitHosts:



转载请注明出处:http://write.blog.csdn.net/postedit/17613045

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
编程实现基本的词频统计数据处理可以使用MapReduce框架来实现。对于两个输入文件,即文件a和文件b,可以按照以下步骤编写mapred程序: 1. 首先,需要编写一个Mapper类,该类继承自Hadoop的Mapper类。在Mapper类中,我们需要重写map方法。在该方法中,将文件a和文件b的内容分割成单词,并将每个单词作为键,将出现的次数作为值进行输出。 2. 接下来,需要编写一个Reducer类,该类继承自Hadoop的Reducer类。在Reducer类中,我们需要重写reduce方法。在该方法中,将相同的单词进行合并,并计算出现的总次数。 3. 在main方法中,我们需要设置job的各种参数,如输入路径、输出路径、Mapper类和Reducer类等。 4. 最后,运行该程序,即可得到基本的词频统计结果。 下面是一个简单的示例代码: ```java import java.io.IOException; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordCount { public static class WordCountMapper extends Mapper<Object, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(Object key, Text value, Context context) throws IOException, InterruptedException { String[] words = value.toString().split(" "); // 分割单词 for (String word : words) { this.word.set(word); context.write(this.word, one); // 输出键值对:(单词, 1) } } } public static class WordCountReducer extends Reducer<Text,IntWritable,Text,IntWritable> { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException { int sum = 0; for(IntWritable val : values) { sum += val.get(); // 计算词频总和 } result.set(sum); context.write(key, result); // 输出结果:(单词, 词频总和) } } public static void main(String[] args) throws Exception{ Job job = Job.getInstance(); job.setJarByClass(WordCount.class); job.setMapperClass(WordCountMapper.class); job.setCombinerClass(WordCountReducer.class); // 设置Combiner类,可以减少网络传输 job.setReducerClass(WordCountReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); // 输入路径 FileOutputFormat.setOutputPath(job, new Path(args[1])); // 输出路径 System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 以上是一个简单的基本词频统计MapReduce程序的示例代码,可以根据实际需求进行修改和扩展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值