MapReducer

最新推荐文章于 2024-04-30 07:30:00 发布

球场程序员

最新推荐文章于 2024-04-30 07:30:00 发布

阅读量1.7k

点赞数

文章标签： mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60600640/article/details/124411841

版权

MapReducer是一种编程模型面向大数据并行处理的一种计算模型,框架和平台

基本特点:

分布可靠,对数据集的操作分发给多个集群中的多个节点实现可靠性,每个节点周期性返回它完成的任务和最新状态

封装实现了细节,基于框架API编程,面向业务展开分布式编码

提供跨语言编程的能力

运行流程:

map阶段和reducer阶段

map:由map task组成

输入数据解析格式InputFormat

输入数据处理 Mapper

数据区分 Partitioner

数据按照key排序

本地规约 Combiner

将任务输出保存到本地

Reducer阶段有Reducer task组成

数据远程拷贝

数据按照key排序和文件合并merge

数据处理 Reducer

数据输出格式 OutputFormat

MapReduce开发流程:

搭建开发环境,参考HDFS环境搭建基本一致

基于MapReducer框架编写代码 Map Reducer Driver三部分组成

编译打包将源代码打成的包和依赖jar包打成一个包

上传至运行环境

运行hadoop jar命令现已有yarn jar 替代建议使用新命令提交执行

Map类编写

mapper:对map过程的封装
Text：Hadoop对Java String类的封装，适用于Hadoop对文本字符串的处理
IntWritable：Hadoop对Java Integer类的封装，适用于Hadoop整型的处理
Context：Hadoop环境基于上下文的操作对象，如Map中key/value的输出、分布式缓存数据、分布式参数传递等
StringTokenizer：对String对象字符串的操作类，做基于空白字符的切分操作工具类

Reduce类编写

Reducer：是MapReduce计算框架中Reduce过程的封装

Driver类编写

Configuration：与HDFS中的Configuration一致，负责参数的加载和传递
Job：作业，是对一轮MapReduce任务的抽象，即一个MapReduce的执行全过程的管理类
FileInputFormat：指定输入数据的工具类，用于指定任务的输入数据路径
FileOutputFormat：指定输出数据的工具类，用于指定任务的输出数据路径

球场程序员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

球场程序员 CSDN认证博客专家 CSDN认证企业博客

码龄3年

69: 原创

12万+: 周排名

7万+: 总排名

4万+: 访问

: 等级

722: 积分

11: 粉丝

30: 获赞

1: 评论

51: 收藏

私信

关注

热门文章

最新评论

IP地址归属地查询完整版
54号考生: https://blog.csdn.net/weixin_41333865/article/details/125264858?spm=1001.2014.3001.5502 这里提供了一个ip地址查询接口

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。