MapReduce学习

InputFormat 接口

作用 :读取数据

  • 数据分割(Data Splits):作用: 分割数据,保证句子的完整性
  • 记录读取器 ( Record Reader): 实际上每个split包含**后一个Block中开头的数据(解决记录跨block问题)**记录文件的开始位置和结束位置

Partitioner

:决定数据由哪个reducer处理,从而进行分区。
比如采用hash法,有n个reduce。用key对n取模,返回m 而生成{partition,key,value}

MemoryBuffer

内存缓冲区,每个map的结果和partition处理的key value结果都保存在缓存中。
缓冲区大小:默认100M

Spill

  • 内存缓冲区达到阈值时, 溢写spill线程锁住80M的缓冲区,开始将数据写到本地磁盘中,然后释放内存。
  • 每次溢写都会生成一个数据文件,溢出的数据到磁盘前,会对数据进行key排序sort以及合并 conbiner
  • 数据经过处理之后,会比之前的数据大,因此hadoop1.0 block只有64,内存溢写是100兆
  • 发送相同的Reduce的key数量,会拼接到一起,减少partition的索引数量

Sort

  • 在缓冲区对数据按照key排序

Conbiner

  • 数据合并,相同的key的数据,value值合并,减少输出传输量
  • 相当提前做reduce的工作,提高传输效率
  • 不能乱用,例如求中值的时候

数据倾斜

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值