大数据学习笔记16：MapReduce处理流程四

最新推荐文章于 2024-03-20 08:58:07 发布

terrorist2008

最新推荐文章于 2024-03-20 08:58:07 发布

阅读量128

点赞数

分类专栏：杂七杂八文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/terrorist2008/article/details/84922762

版权

杂七杂八专栏收录该内容

43 篇文章 0 订阅

订阅专栏

MapReduce处理流程四

1、上面黑色实框圈起来的整体上是 inputformat

2、inputformat 两个功能：切分数据、读取数据

3、一个split 对应一个 map 处理

4、分区、排序都属于 shuffle

5、数据存储交换都在 HDFS上

6、一个map 是一个进程：但是spark 使用的是线程，进程比线程更容易控制资源使用比较稳定。

但是进程启动较慢。

7、RR--记录读取器每读取一条记录调用一次 map 函数，知道split尾部。

8、缓冲区的数据是 { 分区，key，value} 的三元组。

9、不是所有的文件都要经过切分：压缩问价不能切分。

10、一个压缩文件由一个 map 来处理---- 可以通过控制压缩文件个数来控制 map 个数。

11、hdfs Block默认大小是64m - 可以通过参数 dfs.block.size 设置。由此可见 hdfs 适合存储大文件。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。