Hadoop深入浅出

hit_tb

于 2016-09-18 19:36:38 发布

阅读量460

点赞数

文章标签：大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hit_tb/article/details/52577173

版权

Hadoop 的整体逻辑过程：

split input ---> map --->sort---> [ combiner(可以理解为小的reduce，例如统计1950年最高天气) ] --->partitioner（按key分组给不同reduce）——>merge所有map的输出--->sort---->reduce---->part-00*

数据的存储位置：map的输入在hdfs里面，而map的输出在本地硬盘；reduce的输出在hdfs中。

hadoop的重要框架——hadoop streaming

需要注意：

1、利用streaming 处理文本时，一般只选用"\t"分隔列，为什么呢？因为map的输出是通过hadoop框架自动拷贝至reduce任务节点的，程序员不参与这个拷贝过程，然后reduce之前，会有一个sort的过程，这个sort默认是根据"\t"分隔的第一列作为键排序的，因此， map的输出最好使用"\t"，否则在reduce出来的结果就是不正确的。

2、

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Hadoop深入浅出

Hadoopsplit input ---> map --->sort---> [ combiner(可以理解为小的reduce，例如统计1950年最高天气) ] --->partitioner（按key分组给不同reduce）——>merge所有map的输出--->sort---->reduce---->part-00*map的输入在hdfs里面，而map的输出在本地硬盘
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。