Mapreduce思想与案例

最新推荐文章于 2024-05-15 05:32:57 发布

LAllenKing

最新推荐文章于 2024-05-15 05:32:57 发布

阅读量489

点赞数

分类专栏：大数据 Mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42741004/article/details/100081140

版权

首先,我们了解一下mapreduce的核心思想,我们把它总结为天龙八部.

map端：
第一步：按照Fileinputformat格式去读取文件，形成k v对的形式进行输出；key指代是行偏移量，value指代的是一行里面的文本内容
第二步：自定义map逻辑，按照相应的分隔符去拆分文本内容，形成新的k v对，进行输出。

shuffle阶段：
第三步：分区相同key的value合并到同一个组，形成一个集合
第四步：排序按照我们的字典顺序排序
第五步：归约在map端进行相同key进行合并，这个操作主要是减少了reduce的输出量
第六步：分组相同的key分到同一个组

reduce阶段：
第七步：自定义一个reduce逻辑，将相同key的value进行一个累加，将结果输出
第八步: 文件结果的输出

运行mapreduce之前的数据:
hadoop，hive，hbase
spark，hive，hbase
hadoop，hbase

运行mapreduce之后的数据:
hadoop 2
hive 2
hbase 3
spark 1

第一步：
key value
0 hadoop，hive，hbase
17 spark，hive，hbase
33 hadoop，hbase

第二步：
key value
hadoop

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mapreduce思想与案例

首先,我们了解一下mapreduce的核心思想,我们把它总结为天龙八部.map端：第一步：按照Fileinputformat格式去读取文件，形成k v对的形式进行输出；key指代是行偏移量，value指代的是一行里面的文本内容第二步：自定义map逻辑，按照相应的分隔符去拆分文本内容，形成新的k v对，进行输出。shuffle阶段：第三步：分区相同key的value合并到同一个组，形...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。