MapReduce处理流程四
1、上面 黑色实框 圈起来的 整体上 是 inputformat
2、inputformat 两个功能: 切分数据、读取数据
3、一个split 对应一个 map 处理
4、分区、排序 都属于 shuffle
5、数据存储交换都在 HDFS上
6、一个map 是一个进程 : 但是spark 使用的是 线程,进程比线程更容易控制资源使用 比较稳定。
但是 进程启动较慢。
7、RR--记录读取器 每读取一条记录 调用一次 map 函数,知道split尾部。
8、缓冲区的数据 是 { 分区 ,key,value} 的三元组 。
9、不是所有的文件都要经过切分 : 压缩问价不能切分 。
10、一个压缩文件由 一个 map 来处理---- 可以通过控制压缩文件个数 来控制 map 个数。
11、hdfs Block默认大小是64m - 可以通过参数 dfs.block.size 设置 。 由此可见 hdfs 适合存储大文件。