hadoop编程模型

最新推荐文章于 2022-05-14 14:13:22 发布

weixin_30472035

最新推荐文章于 2022-05-14 14:13:22 发布

阅读量98

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/rigid/p/3844598.html

版权

1. 拷贝数据

将一个超大的数据文件拷贝到hadoop集群中，hdfs将其分割成多个数据块，然后再把每一个数据块放到不同的节点里面。

2. map函数

提交一个map函数，此map函数可以被jobchacker进程分配到多个节点里面去运行，对分在那个节点所在机器里面的数据进行map。

3. shuffe预处理

将map结果进行排序然后列表化，其实shuffe就是对map结果进行reduce之前的预处理从而来减少网络数据量的传输，分担reduce的压力

4. reduce

对map阶段的结果进行汇总并计算最终结果，然后将结果输出到hdfs中。

转载于:https://www.cnblogs.com/rigid/p/3844598.html

weixin_30472035

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。