第113讲:10分钟从技术角度理解Hadoop学习笔记

113讲:10分钟从技术角度理解Hadoop学习笔记

本讲内容:

1.HDFS

2.YARN

3.MapReduce

HDFS使用hadoop完成了分布式存储

YARN是作集群资源管理和调试的。运行在hadoop上的程序如何使用内存和CPU是由YARN管理的。

MapReduceMapper把大任务分成任务的子集,计算完成后再由reducer把任务的子集reduce成需要的结果。

Hadoop是什么?

是适合大数据的分布式存储、计算、资源管理平台

Spark可以选择性地运行在hadoop上。

NameNode:Filename,numReplicas,block-ids,......

一般数据存储都有副本,默认是3个副本。

数据存储是分block存储的,一个block默认是128MB

1.HDFS:

 主从结构:

   主节点:namenode

   从节点:datanodes

namenode负责:

   接收用户操作

   维护文件系统的目录结构

   管理文件与block之间关系,blockdatanode之间关系

datanode负责:

   存储文件

   文件被分成block存储在磁盘上

   为保证数据安全,文件会有多个副本

2.YARN

Yarn也是主从结构,resource manager/node namager

每台机器上有node manager管理本机上的资源,并且不断向resource manager发送心跳,报告自己的资源状态。客户端提交一个任务给resource managerresource manager就会知道哪些机器适合运行这个任务。由于resource manager是负责资源管理调度的并不负责作业本身的调度。客户端提交一个任务给resource manager,会启动一个application master,在application master内部计算框架的driverresource manager申请进程。

Yarn下的MapReduce:

主从结构:

  主节点:resource manager

  控制节点:每个Job都有一个MR App Master

  从节点: 从框架上讲叫container,有很多个,运行hadoop时叫YarnChild

ResouceManager负责:

  接收客户提交的计算任务

  把job分给MRAppMaster执行

  监控MRAppMaster的执行情况

MRAppMaster负责:

  负责一个job执行的任务调度

  把job分给YarnChild执行

  监控YarnChild的执行情况

YarnChild负责:

  执行MRAppMaster分配的计算任务

 

 

以上内容是从王家林老师DT大数据课程第113讲的学习笔记。
DT大数据微信公众账号:DT_Spark  

王家林老师QQ:1740415547 

王家林老师微信号:18610086859
DT大数据梦工厂1至114集scala的所有视频、PPT和代码在百度云盘的链接:http://pan.baidu.com/share/home?uk=4013289088#category/type=0&qq-pf-to=pcqq.group

 

第113讲视频网站地址:

51CTO

http://edu.51cto.com/lesson/id-77154.html

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值