第113讲:10分钟从技术角度理解Hadoop学习笔记
本讲内容:
1.HDFS
2.YARN
3.MapReduce
HDFS使用hadoop完成了分布式存储
YARN是作集群资源管理和调试的。运行在hadoop上的程序如何使用内存和CPU是由YARN管理的。
MapReduce由Mapper把大任务分成任务的子集,计算完成后再由reducer把任务的子集reduce成需要的结果。
Hadoop是什么?
是适合大数据的分布式存储、计算、资源管理平台
Spark可以选择性地运行在hadoop上。
NameNode:Filename,numReplicas,block-ids,......
一般数据存储都有副本,默认是3个副本。
数据存储是分block存储的,一个block默认是128MB。
1.HDFS:
主从结构:
主节点:namenode
从节点:datanodes
namenode负责:
接收用户操作
维护文件系统的目录结构
管理文件与block之间关系,block与datanode之间关系
datanode负责:
存储文件
文件被分成block存储在磁盘上
为保证数据安全,文件会有多个副本
2.YARN:
Yarn也是主从结构,resource manager/node namager。
每台机器上有node manager管理本机上的资源,并且不断向resource manager发送心跳,报告自己的资源状态。客户端提交一个任务给resource manager,resource manager就会知道哪些机器适合运行这个任务。由于resource manager是负责资源管理调度的并不负责作业本身的调度。客户端提交一个任务给resource manager,会启动一个application master,在application master内部计算框架的driver向resource manager申请进程。
Yarn下的MapReduce:
主从结构:
主节点:resource manager
控制节点:每个Job都有一个MR App Master
从节点: 从框架上讲叫container,有很多个,运行hadoop时叫YarnChild
ResouceManager负责:
接收客户提交的计算任务
把job分给MRAppMaster执行
监控MRAppMaster的执行情况
MRAppMaster负责:
负责一个job执行的任务调度
把job分给YarnChild执行
监控YarnChild的执行情况
YarnChild负责:
执行MRAppMaster分配的计算任务
以上内容是从王家林老师DT大数据课程第113讲的学习笔记。
DT大数据微信公众账号:DT_Spark
王家林老师QQ:1740415547
王家林老师微信号:18610086859
DT大数据梦工厂1至114集scala的所有视频、PPT和代码在百度云盘的链接:http://pan.baidu.com/share/home?uk=4013289088#category/type=0&qq-pf-to=pcqq.group
第113讲视频网站地址:
51CTO | http://edu.51cto.com/lesson/id-77154.html |