hadoop学习总结

leobean18

于 2017-05-16 17:59:39 发布

阅读量1.2k

点赞数 1

分类专栏：大数据平台文章标签： hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IBelieve2016/article/details/72320679

版权

本文是关于Hadoop的学习总结，重点介绍了MapReduce的shuffle过程和combiner函数，HDFS的架构及shell命令，以及Yarn的资源管理架构和调度器。Hadoop生态圈还包括Hive和HBase，Hive提供SQL-like查询，而HBase是面向列的分布式数据库。

摘要由CSDN通过智能技术生成

hadoop总结1 - - MapReduce和HDFS

Hadoop是一个分布式的集群环境，它不需要我们深入了解许多分布式平台的细节，直接帮我们在上面搭建好了一个平台。Hadoop的核心是HDFS和MapReduce。当然，Hive, hbase, storm, spark等技术，也都是基于hadoop的。下图展示了hadoop的生态圈：

这里写图片描述

MapReduce

MapReduce是一种分布式计算框架，它实现了在多台机器上并行计算，主要由map过程和reduce过程组成。map接受输入数据，它对输入的每一条数据都进行map函数的处理，然后指定输出的键值对，将其发送到reduce端。reduce端会首先保证所有的数据都按照key进行排序，对相同的key的数据，统一做reduce函数操作。

shuffle过程

为了保证map的输出能按照key值的顺序传到reduce端，MapReduce指定了一个排序过程，这个排序过程我们成为shuffle过程。shuffle包括map端shuffle和reduce端shuffle。
在map端，map的输出不是直接写到磁盘，而是写到一个内存缓冲区做预排序，当缓冲区达到80%，就溢写到磁盘。所有溢写文件会被合并成一个已排序的输出文件。
在reduce端，只要有一个map任务完成， reduce就开始复制其输出，当复制完所有map输出后，reduce便进入合并阶段，合并后的每个文件都是相同的key值，此数据作为reduce的输入。

combiner函数

MapReduce除了map和reduce，还提供了combiner函数，它使map的输出更加“紧凑”，减少了带宽的占用。例如： map输出结果

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习总结

hadoop总结1 - - MapReduce和HDFSHadoop是一个分布式的集群环境，它不需要我们深入了解许多分布式平台的细节，直接帮我们在上面搭建好了一个平台。Hadoop的核实HDFS和MapReduce。当然，Hive, hbase, storm, spark等技术，也都是基于hadoop的。下图展示了hadoop的生态圈：MapReduceMapReduce是一种分布式计算框架，它实现
复制链接

扫一扫

专栏目录

leobean18 CSDN认证博客专家 CSDN认证企业博客

码龄8年

60: 原创

10万+: 周排名

151万+: 总排名

10万+: 访问

: 等级

1458: 积分

75: 粉丝

96: 获赞

27: 评论

154: 收藏

私信

关注

热门文章

分类专栏

最新评论

谈谈我的保研经历
xy95xy: 求问大佬，清软佬有提前联系导师吗，官网上老师好少呜呜
Storm学习总结（flume+kafka+storm）
lqy729416873: 讲半天没讲三者具体啥关系
二叉树的最长路径
Sunkcost833: 有道理，怪不得我出问题了
谈谈我的保研经历
云之端i: 博主您好！想问下机器学习、数据挖掘这一类知识你是怎么学的呢？求指点！能分享点学习路线就更好了！十分感谢
Deep Cross Network
ctotalk: thanks very good

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。