- 博客(1)
- 收藏
- 关注
转载 hadoop streaming 排序
一、基础: 首先明确一下两个基本概念: Partition:分桶过程,用户输出的key经过partition分发到不同的reduce里,因而partitioner就是分桶器,一般用平台默认的hash分桶,也可以自己指定。 Key:是需要排序的字段,相同分桶&&相同key的行排序到一起。 在streaming模式默认hadoop会把map输出的一行中遇到的第一个设定的字段分隔符...
2018-10-18 20:39:05 645
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人