MapReduce进阶与经典案例

最新推荐文章于 2024-04-02 15:58:10 发布

*赶鸭子上架*

最新推荐文章于 2024-04-02 15:58:10 发布

阅读量272

点赞数

文章标签： mapreduce big data 大数据

本文链接：https://blog.csdn.net/m0_62295920/article/details/122869981

版权

本文详细介绍了MapReduce的数据格式，包括文件格式、压缩格式及其应用。接着讲解了自定义Partitioner，包括HashPartitioner的默认实现、MapReduce个数的确定、自定义reduce数量及如何实现自定义Partition。最后，探讨了如何在MapReduce中读取外部配置文件，通过Configuration传递文件内容到Map任务中进行过滤处理，并给出了完整的代码实现和运行验证。

摘要由CSDN通过智能技术生成

一.HDFS数据格式详解
1、文件格式
文件格式按面向的存储形式不同，分为面向行和面向列的两大类文件格式。

面向行/列	类型名称	是否可切分	优点	缺点	适用场景
面向行	文本文件格式(.txt)	是	查看便编辑简单	无压缩占空间大、传输压力大、数据解析开销大	学习练习使用
面向行	sequenceFile序列文件格式(.seq)	是	原生支持、二进制kv存储、支持行和块压缩	本地查看不方便:小文件合并成kv结构后不易查看内部数据	生产环境使用、map输出的默认文件格式
面向列	rcfile文件格式(.rc)	是	数据加载快、查询快、空间利用率高、高负载能力	每一项都不是最高	学习生产均可
面向列	orcfile文件格式(.orc)	是	兼具了rcfile优点，进一步提高了读取、存储效率、新数据类型的支持	每一项都不是最高	学习生产均可

2、压缩格式
压缩格式按其可切分计算性，分为可切分计算和不可切分计算两种。

可切分性	类型名称	是否原生	优点	缺点	适用场景
可切分	lzo(.lzo)	否	压缩/解压速度快，合理的压缩率	压缩率比gzip低，非原生、需要native安装	单个文件越大，lzo优点越明显，压缩完成后>=200M为宜
可切分	bzip2(.bz2)	是	高压缩率超过gzip，原生支持、不需要native安装，用linux bzip可解压操作	压缩/解压速率慢	处理速度要求不高、压缩率要求高的情况
不可切分	gzip(.gz)	是	压缩/解压速度快，原生/native都支持，使用方便	不可切分，对cpu要求较高	压缩完成后<=128M的文件适宜

最低0.47元/天解锁文章

*赶鸭子上架*

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce进阶与经典案例

一.HDFS数据格式详解 1、文件格式文件格式按面向的存储形式不同，分为面向行和面向列的两大类文件格式。面向行/列类型名称是否可切分优点缺点适用场景面向行文本文件格式(.txt) 是查看便编辑简单
复制链接

扫一扫