Hadoop实践（三）---MapReduce相关编程笔记

最新推荐文章于 2024-06-11 15:54:09 发布

狮锅艺

最新推荐文章于 2024-06-11 15:54:09 发布

阅读量733

点赞数

分类专栏： MapReduce Hadoop Hadoop实践文章标签： hadoop 编程配置

本文链接：https://blog.csdn.net/wee_mita/article/details/52502243

版权

Hadoop 同时被 3 个专栏收录

46 篇文章 0 订阅

订阅专栏

Hadoop实践

29 篇文章 6 订阅

订阅专栏

MapReduce

23 篇文章 0 订阅

订阅专栏

1、Keys是WritableComparable类对象 values是writable实例

在编写map和reduce函数时，避免每一项输出分配一个新对象，这一过程常在for或者foreach循环中完成，这样会创建数千甚至上百万个writable实例，这些实例的生命周期极短，会造成Java垃圾回收器工作加大。

错误例子：

    public void mymap extend Mapper<>{
        for(String word : words){
            output.collect(new Text（word），new Intwtitable（1）)；
        }
    }

2、MapReduceV1 和MapReduceV2的区别

        ResourceManager代替集群管理器，
        ApplicationMaster代替一个专用且短暂的JobTracker，
        NodeManager代替TaskTracker。

3、YARN配置支持SPARK

在Hadoop 2.0的yarn-site.xml中可增加spark_shuffle，配置如下：

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle,spark-shuffle</value>
</property>

4、Combiner

当使用Combiner时，需要遵循其规定的限制条件。这就需要修改Mapper、Combiner和Reducer输出的键和值的类。

Combiner规定有关键的约束条件是：

Combiner输入和输出的键和值类必须和相应Mapper输出的键和值类一致

使用Combiner并不会自动提高性能，在合适的地方使用Combiner才可以提升效率。运行Combiner也会造成额外的开销，如果随意使用Combiner，很可能因为额外的开销造成程序效率低下。

5、Partitioner

Partitioner类，其用于决定将键分配到哪个Reducer（在Reducer中键已被排序）
job.setPartitionerClass（），用于保证键传输到合适的Reducer中，并按键进行排序

对Reducer数量的设置：

job.setNumReducer（12）进行硬编码
-D mapred.reduce.task=12 使用参数设置（新版API使用mapreduce.job.reduces）

Partitioner类在org.apache.hadoop.mapreduce.Partitioner定义的，该类用于分配Reducer之间的键。
Partitioner类的一个实例与Mapper的实例在同一个JVM上执行。
在Mapper实例中每次调用context.write()的时候都会调用Partitioner类的getPartition方法，int getPartition（K key, V value, int NumReducrTasks）返回的是Reducer的索引值。
当Partitioner没有自定义的时候，Hadoop框架会使用一个默认的Partitioner，即org.apache.hadoop.mapreduce.lib.partition.HashPartitioner

HashPartitioner调用hashCode（）方法处理键实例，且执行模运算（即对NumReduceTasks取模）。对于每个Reducer，在Partitioner分离键后，Reducer才会按键排序。每个Reducer都排序，但是Reducer之间并没有按键排序，使用的公式：（key.hashcode()&Integer.MAX_VALUE)%NumReduceTasks）