第113讲：10分钟从技术角度理解Hadoop学习笔记

梦飞天

于 2015-10-09 22:19:01 发布

阅读量792

点赞数

分类专栏： hadoop 文章标签： hdfs yarn mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/slq1023/article/details/49008283

版权

hadoop 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

第113讲：10分钟从技术角度理解Hadoop学习笔记

本讲内容：

1.HDFS

2.YARN

3.MapReduce

HDFS使用hadoop完成了分布式存储

YARN是作集群资源管理和调试的。运行在hadoop上的程序如何使用内存和CPU是由YARN管理的。

MapReduce由Mapper把大任务分成任务的子集，计算完成后再由reducer把任务的子集reduce成需要的结果。

Hadoop是什么？

是适合大数据的分布式存储、计算、资源管理平台

Spark可以选择性地运行在hadoop上。

NameNode:Filename,numReplicas,block-ids,......

一般数据存储都有副本，默认是3个副本。

数据存储是分block存储的，一个block默认是128MB。

1.HDFS:

主从结构：

主节点：namenode

从节点：datanodes

namenode负责：

接收用户操作

维护文件系统的目录结构

管理文件与block之间关系，block与datanode之间关系

datanode负责：

存储文件

文件被分成block存储在磁盘上

为保证数据安全，文件会有多个副本

2.YARN：

Yarn也是主从结构，resource manager/node namager。

每台机器上有node manager管理本机上的资源，并且不断向resource manager发送心跳，报告自己的资源状态。客户端提交一个任务给resource manager，resource manager就会知道哪些机器适合运行这个任务。由于resource manager是负责资源管理调度的并不负责作业本身的调度。客户端提交一个任务给resource manager，会启动一个application master，在application master内部计算框架的driver向resource manager申请进程。

Yarn下的MapReduce:

主从结构：

主节点：resource manager

控制节点：每个Job都有一个MR App Master

从节点：从框架上讲叫container，有很多个，运行hadoop时叫YarnChild

ResouceManager负责：

接收客户提交的计算任务

把job分给MRAppMaster执行

监控MRAppMaster的执行情况

MRAppMaster负责：

负责一个job执行的任务调度

把job分给YarnChild执行

监控YarnChild的执行情况

YarnChild负责：

执行MRAppMaster分配的计算任务

以上内容是从王家林老师DT大数据课程第113讲的学习笔记。
DT大数据微信公众账号：DT_Spark

王家林老师QQ:1740415547

王家林老师微信号：18610086859
DT大数据梦工厂1至114集scala的所有视频、PPT和代码在百度云盘的链接:http://pan.baidu.com/share/home?uk=4013289088#category/type=0&qq-pf-to=pcqq.group

第113讲视频网站地址：

51CTO

http://edu.51cto.com/lesson/id-77154.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。