大数据学习笔记16:MapReduce处理流程四

MapReduce处理流程四

 

 


 

 

 

   1、上面 黑色实框 圈起来的 整体上 是   inputformat

 

   2、inputformat 两个功能: 切分数据、读取数据 

 

   3、一个split 对应一个 map 处理

 

   4、分区、排序 都属于  shuffle 

 

   5、数据存储交换都在 HDFS上

 

   6、一个map 是一个进程 : 但是spark 使用的是 线程,进程比线程更容易控制资源使用  比较稳定。

         但是 进程启动较慢。

 

   7、RR--记录读取器   每读取一条记录  调用一次  map 函数,知道split尾部。

 

   8、缓冲区的数据 是    { 分区 ,key,value} 的三元组 。

 

   9、不是所有的文件都要经过切分 : 压缩问价不能切分 。

 

   10、一个压缩文件由 一个 map 来处理---- 可以通过控制压缩文件个数  来控制 map 个数。

 

   11、hdfs   Block默认大小是64m  - 可以通过参数 dfs.block.size  设置  。 由此可见  hdfs 适合存储大文件。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值