Hadoop之MapReduce & HDFS

最新推荐文章于 2021-12-09 23:25:34 发布

suchang_csdn

最新推荐文章于 2021-12-09 23:25:34 发布

阅读量739

点赞数

分类专栏： BigData 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/suchang1127/article/details/49384769

版权

本文介绍了Hadoop中的核心组件MapReduce和HDFS。MapReduce是一个分布式计算框架，包含Mapping、Shuffle和Reducing三个步骤，适用于大规模数据处理。HDFS遵循一次写入、多次读取的设计理念，用于存储超大文件，运行在普通硬件上。文章详细讲解了NameNode、SecondaryNameNode和DataNode的角色，以及HDFS的冷备份和热备份策略。

摘要由CSDN通过智能技术生成

Hadoop是Apache下的一个项目，由HDFS、MapReduce、Hive、Zookeeper、HBase等组成。其中MapReduce和HDFS是两个最基础最重要的成员。

MapReduce

MapReduce是现今非常流行的一个分布式计算框架，它被设计用于并行计算海量数据。第一个提出该技术框架的是Google公司，而Google的灵感则是来自函数式编程，如LISP、ML、Scheme等。
以下是MapReduce三个主要步骤：

Mapping

对集合中的每一个目标都执行同一个的操作；

当你向该框架发布一个计算任务时，它会首先将计算任务分成若干个Map任务，然后分布到不同的节点去执行，每一个Map任务处理输入数据的一部分内容，当Map任务完成后，会产生一个中间文件，而这些中间文件则作为Reduce的输入。

Shuffle

它是MapReduce的心脏。指的是从Map产生输出开始，包括系统执行排序以及传送Map输出到Reducer作为输入的过程。在这里不去探究其具体的工作流程。

Reducing

遍历集合中的所有元素来返回一个综合的结果；

Reduce的任务则是将前面处理过的结果汇总到一起并输出。

MapReduce的基本构思

对付大数据处理——分而治之

什么样的计算任务可以进行并行化计算？
并行计算的第一个重要问题是如何划分计算任务或者计算数据以便对划分的子任务或数据块行并行计算。但并不是所有任务都能够进行并

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop之MapReduce & HDFS

Hadoop是Apache下的一个项目，由HDFS、MapReduce、Hive、Zookeeper、HBase等组成。其中MapReduce和HDFS是两个最基础最重要的成员。本文主要介绍了MapReduce和HDFS的设计理念和一些基础内容。
复制链接

扫一扫

专栏目录

suchang_csdn CSDN认证博客专家 CSDN认证企业博客

码龄13年

32: 原创

19万+: 周排名

229万+: 总排名

8万+: 访问

: 等级

1055: 积分

11: 粉丝

20: 获赞

2: 评论

40: 收藏

私信

关注

热门文章

分类专栏

Scala编程学习笔记 13篇
Tips 11篇
Scala 14篇
C++ 4篇
Algorithm 2篇
BigData 3篇
Spark 2篇
Java

最新评论

静态语言和动态语言的区别
Static H: 强类型/弱类型指运算或者赋值(大概) 时会不会检查类型, 会检查是强, 不检查是弱. Python不能把不同类型的对象(除了整数浮点数这种常识性的) 加在一起, 所以Python是强类型 JS不检查, 不过结果可能有错误, 所以JS是弱类型
静态语言和动态语言的区别
Tracer805: 博主，python是强类型语言

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。