大数据运算系统（1）--- MapReduce

最新推荐文章于 2022-05-27 19:43:00 发布

JepsonWong

最新推荐文章于 2022-05-27 19:43:00 发布

阅读量557

点赞数

分类专栏：大数据文章标签：大数据 Hadoop MapReduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013710265/article/details/70173248

版权

大数据专栏收录该内容

15 篇文章 1 订阅

订阅专栏

一、MapReduce/Hadoop

简介：

MapReduce是目前云计算中最广泛使用的计算模型，由Google提出。

Hadoop是MapReduce的一个开源实现。

1、编程模型

（1）整体思路

程序员写串行程序。

由系统完成并行分布式执行。

程序员保证串行程序的正确性，系统负责并行分布执行的正确性和效率。

（2）数据模型

<key, value>：数据由一条一条的记录组成；记录之间是无序的；每一条记录有一个key和一个value；key：可以不唯一；key与value的具体类型和内部结构由程序员决定，系统基本上把它们看作黑匣。

（3）Map-shuffle-Reduce

Map(ik, iv) -> {<mk, mv>} 输入是一个key-value记录，输出是0~多个key-value记录， mk和ik可能完全不同。

shuffle：由系统完成。shuffle=group by mk。对于所有Map函数的输出，进行 group by。将相同mk的所有mv都一起提供给Reduce。

Reduce(mk, {mv}) -> {<ok,ov>} 输入是一个mk和与之对应的所有mv，输出是0~多个key-value记录， ok与mk可能不同。

程序员编制串行的Map函数和Reduce函数，系统完成shuffle功能。

（4）Word count举例

（5）与SQL Select语句的关系

Map：类似Selection/projection

Shuffle：类似Group by

Reduce：类似Aggregation，Having

2、系统实现

（1）MapReduce系统架构

master/worker

（2）MapReduce/Hadoop系统架构

JobTracker：控制协调作业的运行

TaskTracker：执行Map Task或Reduce Task

JobTracker，TaskTracker， Name Node， Data Node都是进程，所以可以在一台机器上同时运行JobTracker/Name Node，TaskTracker/Data Node。

（3）MR运行

提交作业：包括Map函数、Reduce函数（Jar）、配置信息（例如，几个Mappers，几个Reducers）、输入路径、输出路径等。

Map Task读数据：Split为一个HDFS数据块；Split的个数可能多余Mappers个数。

Map Task执行：对于一个Split，进行Mapper操作生成<mk, mv>。属于同一个Reduce task的<mk, mv>存储于同一个文件，放在本地硬盘上。

Shuffle：Rdeucer从每个Map task传输中间结果文件。对多个文件进行归并，从而实现group by。

Reduce：对每个<mk, {mv}>调用一次Reduce函数，产生<ok, ov>写入输出文件。

Combiner：partical reducer。

3、典型算法

（1）Grep（找到符合特定模式的文本）

（2）Sorting

利用MapReduce系统的shuffle/sort功能完成sorting。identity指将输入拷贝到输出。

（3）Join

一组Mapper处理R，一组Mapper处理S；利用shuffle/group by把匹配的record放到一起；Reducer调用时，{mv}包含同一个join key的所有匹配的R和S记录。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

JepsonWong CSDN认证博客专家 CSDN认证企业博客

码龄11年

100: 原创

17万+: 周排名

220万+: 总排名

33万+: 访问

: 等级

4119: 积分

110: 粉丝

74: 获赞

9: 评论

375: 收藏

私信

关注

热门文章

分类专栏

计算机系统结构 17篇
人工智能 1篇
机器学习 24篇
神经网络 1篇
自然语言处理 3篇
大数据 15篇
python 9篇
C++ 2篇
Java 3篇
Scala 7篇
Linux 12篇
线性代数 2篇
科学计算 2篇
最优化理论 1篇
开源硬件 9篇
算法 2篇
网络 9篇
TensorFlow 1篇
汇编语言 2篇
安全 1篇
其他 1篇

最新评论

特征工程（补充）--特征组合
Bullet@: 可以具体谈谈是怎么样让特征加减乘除组合的吗？
sklearn：点互信息和互信息
weixin_41980031: 补充说明点互信息也可以通过Sklearn的build in function 来写代码如下 [code=python] from sklearn import feature_selection as fs # xtrain是features # ytrain是labels # 返回的是一个每个features的PMI值的matrix PMI = fs.mutual_info_classif(xtrain,ytrain) [/code]
sklearn：点互信息和互信息
weixin_41980031: 补充说明点互信息也可以通过Sklearn的build in function 来写代码如下 [code=python] from sklearn import feature_selection as fs # xtrain是features # ytrain是labels # 返回的是一个每个features的PMI值的matrix PMI = fs.mutual_info_classif(xtrain,ytrain) [/code]
sklearn：点互信息和互信息
weixin_41980031: 补充说明点互信息也可以通过Sklearn的build in function 来写代码如下 [code=python] from sklearn import feature_selection as fs # xtrain是features # ytrain是labels # 返回的是一个每个features的PMI值的matrix PMI = fs.mutual_info_classif(xtrain,ytrain) [/code]
人工智能三要素
m0_49510957: 无限超级人工智能机器人可以帮助全人类获得无限算能造器来完成全人类的不死永生与无限飞穿！……………

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。