hadoop yarn hdfs 原理和联系

最新推荐文章于 2024-08-20 07:30:00 发布

阿里云鬼谷子

最新推荐文章于 2024-08-20 07:30:00 发布

阅读量3.1k

点赞数

hadoop

大数据工程师/hadoop工程师
目的：高效的存储、处理这些海量、多种类、高速流动的数据
hadoop来源google 03~06 年的三篇论文
hadoop利用分而治之的朴素思想为大数据处理提供了一整套新的解决方案，分布式文件系统HDFS、分布式计算框架MapReduce、NoSQL数据库HBase、数据仓库工具Hive等
hadoop主要组件：HDFS、MapReduce、YARN、Hive、Sqoop、Hbase
hadoop其实是由一系列的软件库组成的框架，这些软件库可称为功能模块，他们各自负责hadoop一部分功能，其中最主要的是Common、HDFS、YARN，HDFS负责数据的存储，YARN负责统一资源管理和调度，Common则提供远程过程调用RPC、序列化机制
Hadoop生态圈：
Hadoop Common 是Hadoop体系最底层的一个模块，为hadoop各子项目提供各种工具，如系统配置工具Configuration、远程过程调用 RPC、序列化机制和日志操作，是其他模块基础
HDFS：高度容错性分布式文件系统
YARN
MapReduce 编程模型函数式编程（java python C++ php）
Spark 新一代计算框架
HBase 分布式面向列族的数据库
zookeeper 解决分布式一致性问题
Hive/pig/impala/mahout/flume/sqoop/kafka
基于hadoop做二次开发的公司；Cloudera、Hortonworks、MapR
CDH （cloudera distribution for hadoop）

云计算定义：云计算是一种可以通过网络方便的接入共享资源池，按需获取计算资源（cpu 内存存储网络）的服务模型
云计算五大特点：按需提供服务、宽带网络访问、资源池化、高可伸缩性、可量化服务
云计算类型：
IaaS 作为云计算框架最底层，利用虚拟化技术将硬件设备等基础资源封装成服务供用户使用，用户相当于使用裸机
ps：虚拟化产品：VMvare vShpere 、微软的Hyper-V、开源的KVM、开源的Xen Amazon EC2 利用的就是Xen这种技术
PaaS Google App Engine
SaaS
hadoop 作为一个分布式的软件框架，拥有云计算PaaS的所有特点，是云计算的重要组成部分

hadoop是apache软件基金会的顶级项目
CDH5

Hadoop主要有两部分组成，分布式文件系统HDFS和统一资源管理和调度系统YARN，分布式文件系统主要负责海量数据的存储，而YARN主要是管理集群的计算资源并根据计算框架的需求进行调度

Hadoop HDFS架构：
NameNode（元数据–数据的数据–数据存储在文件系统的位置，存储文件系统元数据，存储文件与数据块映射，并提供文件系统全景图）、SecondaryNameNode（元数据备份，备份namenode数据，并负责镜像与namenode日志数据的更新）、多个DataNode

YARN架构：
ResourceManager：负责集群中所有资源的统一管理和调度
NodeManager：负责管理单个计算节点、容器的生命周期管理、追踪节点健康水平

因此，HDFS集群和YARN集群其实有一些守护进程组成，而所有这些守护进程与运行它们的节点就构成了hadoop

注意：DataNode 和 NodeManager需配对部署在同一个节点，而 NameNode 和 ResourceManager 出于稳定性考虑，商业部署时却不在同一节点

Hadoop安装步骤：
安装运行环境（VM）
修改主机名和用户名
配置静态IP
配置SSH无密码链接
安装JDK
配置Hadoop
格式化HDFS
启动hadoop

hadoop伪分布式安装心得：
需要安装ssh ，namenode 、 secondarynode 、datanode、resourcemanager、nodemanager 虽都部署在同一服务器上，但都是一个个独立的进程，有自己的端口号，相互间通信时需要相互登陆，所以需要ssh

Linux注意文件权限问题

Hive安装使用！！！
HBase安装使用！！！

Linux环境变量修改
/etc/profile 全局环境变量
~/.bash_file 只对当前用户生效
编辑环境变量后需source后生效

Hadoop的基石：HDFS
Hadoop有一个抽象的文件系统，HDFS只是其中的一个实现
Hadoop提供了很多文件系统的接口，用户可以选取合适的URI方案来实现对特定文件系统的交互
例如：
本地文件系统 hadoop dfs -ls file：///
HDFS hadoop dfs -ls hdfs：///
HDFS设计理念：
适合存储超大文件
是和部署在廉价硬件上
一次写入多次读取

短板：
实时数据访问弱，可考虑用HBase
大量小文件：当Hadoop启动时，Namenode会将所有元数据读到内存，以此构建目录树。一般来说，一个HDFS上的文件、目录和数据块的存储信息大约在150B左右，那么可以推算出，如果namenode内存为16GB，大概只能存放480万个文件

HDFS的架构：
一个典型的HDFS集群中，有一个NameNode 一个SecondaryNameNode，至少一个DataNode，所有数据都存在运行DataNode进程的节点的块（block）里
1.块
每个磁盘都有默认的数据块大小，这是磁盘进行数据读写的最小单位，而文件系统也有文件块的概念，如ext2、ext3等。文件系统的块大小只能是磁盘块大小的整数倍，磁盘块大小一般为512B，文件系统块一般为4096B.用户在使用文件系统进行读写的时候，完全不需要知道快的细节，这些对于用户是透明的
HDFS同样也有块的概念，但HDFS的块比一般文件系统大得多，默认为64MB，也可自行设置,配置项为hdfs-site.xml文件中的dfs.block.size项，与单一文件系统相似，HDFS上的文件也被划分成块大小的多个分块
HDFS块之所以设置这么大的原因是为了最小化寻址开销，块设置的足够大，磁盘传输数据的时间就会明显大于寻址时间，从而提升了磁盘传输的效率
dfs.relication.size 块副本数

2.NameNode 和 SecondaryNameNode
NameNode 维护整个文件系统的目录树，以及目录树所有的文件和目录，这些信息以两种文件存储在本地文件 FSImage edit-log
SecondaryNameNode 是用于定期合并文件系统镜像和编辑日志的辅助守护进程
生产环境下一般将 SecondaryNameNode 单独部署在另一台服务器上
FSImage文件其实是文件系统元数据的一个永久检查点，但并非每一个写操作都会更新入这个文件，因为FSImage是一个大型文件，如果频繁读写，会使系统运行极慢

Secondary 负责合并

HDFS容错
1.心跳机制
在NameNode和DataNode之间维持心跳检测，当因为网络故障或DataNode节点宕机实，立即转储该宕机节点存储的数据块
2.检验文件块的完整性，分隔时记录校验和，从某节点获取块时校验
3.集群负载均衡
4.NameNode 上的FSImage 和 edit.log定期备份到 SecondaryNameNdoe

HDFS中的新特性
NameNode HA（high avaiable）
NameNode HA 其实就是NameNode 的热备，而非像SecondaryNameNode的冷备
NameNode Federation

YARN:统一资源管理和调度平台
YARN脱胎于MRv1，MRv1饱受诟病，缺点：可靠性差、可扩展性差、资源利用率低、无法支持异构计算框架
YARN 接管所有资源管理功能，兼容异构框架
HDFS——>YARN——>(spark、mapreduce…)

统一资源和调度平台范型
1.集中调度器
在高并发作业下容易出现瓶颈
2.双层调度器
3.状态共享调度器

YARN的架构
主从架构
YARN服务有ResourceManager、NodeManager两类进程组成，container是YARN资源表示模型，任何类型的计算类型的作业都可以运行在container中，AplicationMaster就是二级调度器，他也运行在container中
1.ResourceManager相当于双层调度器中的中央调度器，其主要责任是定期汇总各个NodeManager的资源情况，并根据资源情况将资源分配给各个二级调度器（applicationMaster）
假如有多个作业同时竞争资源，ResourceManager会根据优先级权衡分配给多个应用的applicationMaster资源，并不关注资源利用细节
因此对于每个应用，只需ResourceManager进行一次资源分配，大大减轻负荷，增强了扩展性
2.NodeManager 与 ResourceManager、applicationMaster通信，回报资源情况，任务处理情况，管理该节点container
3.AplicationMaster 负责具体应用执行，由ResourceManager分配资源，第一个container即为AplicationMaster，其负责处理应用细节，随着应用开始而开始，结束而结束
4.container 资源分配单位，抽象cpu 内存硬盘等资源，可执行任何类型计算任务，因此兼容异构框架

YARN 的工作流程：
客户端向ResourceManager提交自己的应用
ResouceManager向NodeManager发送指令，为应用开启的一个container，在container启动AplicationMaster
AplicationerMaster向ResourceManager注册
AplicationMaster采用轮询的方式向ResourceManager的 YARN scheduler领取资源
当 AplicationMaster申领到资源后（其实就是获得了空闲节点的信息），与对应的NodeManager建立通信，请求启动计算任务
NodeManager根据资源量的大小、所需运行环境，在container中启动任务
各个任务向AplicationMaster回报自己的状态和进度
应用程序完成后 AplicationMaster向ResourceManager报告并注销关闭自己

MapReduce
源于google论文
开发简单：MapReduce编程模型，用户不需要考虑进程间通信、套接字编程，只需要满足MapReduce简单逻辑，其他交给MapReduce分布式计算框架去完成
可扩展性强
容错性强
MapReduce运行环境已经成为YARN
MapReduce编程思想：MapReduce操作数据的最小单位是一个键值对
MapReduce核心将数据用键值对表示，利用分而治之的思想，将复杂的问题转化一系列MapReduce作业，利用Hadoop提供的MapReduce计算框架，实现分布式计算
MapReduce作业是用户提交最小的单位，而Map/Reduce任务是节点运行单位，当用户向hadoop提交一个作业，负责改作业的aplicationManager会将作业分解为多个Map/Reduce任务下发各子计算节点执行

MapReduce的局限性
1.MapReduce的执行速度慢，MapReduce的慢主要由于磁盘I/O，MapReduce作业多是数据密集型作业，大量中间结果需要写到磁盘上并通过网络传输，耗去了大量时间
2.不是所有算法都可以借助MapReduce的键值对实现

MapReduce实例（wordcount）分析：
思路：HDFS上文件作为输入，map函数中完成对单词的拆分并输出为中间结果，在reduce函数中完成对每个单词的统计

MapReduce的过程
一个MapReduce作业经历input、map、conbine、reduce、output五个阶段，其中combine并不一定发生，map输出的中间结果被分发到reducer的过程为shuffle（数据混洗）
在shuffle阶段还会发生copy和sort过程
Reduce任务默认在map任务完成5%之后才启动
Map任务概括：首先通过用户指定的InputFormat类中gatsplits和next方法将输入文件切片成键值对作为map函数输入。然后map函数经过处理后输出并中间结果交给指定partitioner，确保中间结果交给指定reducer处理，此时如果用户指定了conbiner，将进行combine操作。最后map函数将中间结果保存在本地
reduce任务概括：将map任务输出的中间结果复制到reduce任务所在节点，带数据复制完成后，再以键排序，将相同的键交给reduce函数处理
五大过程：
input：对于Map任务来说，处理单位为一个inputsplit，inputsplit可以和块等大小，也可以包含多个块，hadoop在进行任务调度时会优先考虑本地数据，如果本节点没有可处理的数据或者还需要处理其他节点的数据，就要通过网络传输，当inputsplit容量大于块的容量，map任务就必须从其它节点读取一部分数据，这样不能实现完全数据本地化，所以应尽量使InputSplit和HDFS块大小相同，以提高map任务的本地计算率
Reduce阶段分为 copy sort reduce （sort）
mapreduce过程从 map阶段的分区 combine 到 shuffle reduce 的sort，一直注意数据的有序性

Hive SQL on Hadoop
常见的count、group by、order by、join等sql操作都可以由mapreduce实现，在某种意义上，Hive可以说是HiveQL到MapReduce作业的映射器
Hive将用户输入的HiveQL脚本转化成一个或多个MapReduce作业在集群中运行
同样地在hadoop生态圈里还有一个pig的组件，它的作用和hive类似，但pig提供的不是sql接口而是一种叫pig latin的语言接口
pig latin 和 hiveQL 都是对mapreduce进行了一种封装，使用户不用直接编写mapreduce程序，所以称它为hadoop的高级语言
hadoop HDFS/yarn——>mapreduce——>hive