MapReduce操作实践

最新推荐文章于 2024-05-11 09:00:00 发布

亚尔蒂兰

最新推荐文章于 2024-05-11 09:00:00 发布

阅读量2.8k

点赞数 3

分类专栏：大数据平台技术学习记录文章标签： hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YTLDSS/article/details/123961726

版权

实验内容与要求：

MapReduce基本知识总结
MapReduce的操作实践
2.1 基于MapReduce的WordCount实践：统计每个单词出现的次数
2.2 自定义Hadoop数据类型实践：自定义hadoop数据类型，在统计每个单词出现次数的过程中，同时计算每个单词的长度
2.3 多mapReduce任务的串联实践：基于MapReduce统计共有多少个单词，而不是每个单词出现的次数

1. MapReduce基本知识的总结

MapReduce是一个运行在Hadoop上的分布式计算框架，用于处理大规模的数据，计算的思想是“分治法”，将大量数据分为不互相依赖的数据块，存储在不同的datanode上，由map函数处理形成部分数据的处理结果，再由reduce函数整合形成最终的结果。
一个map函数处理一个<key1,value1>数据，map端的shuffle阶段将<key1,value1>转化为<key1,value-list>形式，减少数据传输的工作量，reduce端的shuffle阶段将map端对应分区数据取回reduce端，对数据按键值排序，reduce函数将<key1,value-list>的数据合并，转为<key2,value2>。
Hadoop的数据类型是对java数据类型的封装，便于进行序列化处理，使不同的数据以统一的格式在集群中存储传输，参考Hadoop的text类型源码，可以自定义wordcountandlen数据类型，输出每个单词的总数和长度。
有时一个MapReduce过程无法得到想要的结果，可以通过多mapre任务的串

最低0.47元/天解锁文章

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
MapReduce操作实践

实验内容与要求：MapReduce基本知识总结MapReduce的操作实践2.1 基于MapReduce的WordCount实践：统计每个单词出现的次数2.2 自定义Hadoop数据类型实践：自定义hadoop数据类型，在统计每个单词出现次数的过程中，同时计算每个单词的长度2.3 多mapReduce任务的串联实践：基于MapReduce统计共有多少个单词，而不是每个单词出现的次数1. MapReduce基本知识的总结MapReduce是一个运行在Hadoop上的分布式计算框架，用于处理大
复制链接

扫一扫

专栏目录

亚尔蒂兰 CSDN认证博客专家 CSDN认证企业博客

码龄4年

22: 原创

54万+: 周排名

222万+: 总排名

3万+: 访问

: 等级

248: 积分

13: 粉丝

9: 获赞

7: 评论

62: 收藏

私信

关注

热门文章

分类专栏

最新评论

MapReduce操作实践
亦为流年: 你一定是我同校同专业的学长
嵌套结构体案例
不正经的kimol君: 学起来，头秃的那种~
嵌套结构体案例
释怀人生: 看完大佬的文章，我的心情竟是久久不能平静。正如老子所云：大音希声，大象无形。我现在终于明白我缺乏的是什么了。
结构体数组
亚尔蒂兰: 谢谢！
结构体数组
亚尔蒂兰: 只是小白QAQ，哈哈，还需要多多学习！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。