MapReduce的优化

最新推荐文章于 2023-07-18 16:28:02 发布

白墨Blake

最新推荐文章于 2023-07-18 16:28:02 发布

阅读量200

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/ilovehua521/article/details/101519432

版权

本文探讨了MapReduce的优化方法，包括Map Join技术，它通过在Map阶段进行数据拼接，提高效率，适用于小文件。另外，介绍了SequenceFile的使用，将中间结果保存为SequenceFile能提升文件读写效率，以应对多MapReduce任务的配合需求。

摘要由CSDN通过智能技术生成

Map Join：
在 Map 阶段拼接数据，效率高，
只适合一个文件小到能够读取到内存中

job：
    1. 添加小文间到 classpath
        job.addFileToClassPath()
        
map：
    1. 在 setup 读取小文间的内容，保存到内存中的 HashMap 中
        以 关联条件为 key，其它字段为 value
    2. 在 map 中读取大文件内容，
        根据 关联条件 获取 HashMap 中数据进行拼接

Reduce Join：
在 Reduce 阶段拼接数据，效率低，但是可以处理任意大小的数据

map：
    1. 读取处理的 kv 文件名
    2. 不同文件进行不同的处理
    3. 以 关联条件 + 数据来源 为 key，其它字段为 value 进行输出

自定义聚合规则，把关联相同的数据聚合到一起

reduce：
    1. 遍历 values，根据 key 中的数据来源区分出不同的数据
    2. 拼接不同来源的数据，输出

SequenceFile：
有些计算需要多个 mapreduce 配和才能完成，
可以把中间数据保存为 SequenceFile，提高文件的读写效率

SequenceFile 是 Hadoop 专有的文件格式，针对于 HDFS 进行了优化，具有极快的读写速度
    SequenceFile 是以 key-value 形式存储数据
        保存的时候，填充 key

最低0.47元/天解锁文章

白墨Blake

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的优化

Map Join：在 Map 阶段拼接数据，效率高，只适合一个文件小到能够读取到内存中job： 1. 添加小文间到 classpath job.addFileToClassPath() map： 1. 在 setup 读取小文间的内容，保存到内存中的 HashMap 中以关联条件为 key，其它字段为 value ...
复制链接

扫一扫

专栏目录