Hadoop入门知识
目录
一、分布式系统和集群
1、分布式
概念:
分布式是指将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事情。
2、集群
概念:
所谓集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机 联合起来工作(服务),可以是并行的,也可以是做备份。
3、分布式的基本框架
(1)去中心化模式
(2)中心化模式
(3)主从模式
4、总结
二、Hadoop框架概论
1、Apache Hadoop框架
(1)Hadoop介绍
Hadoop是Apache软件基金会下的顶级开源项目,用以提供:
• 分布式数据存储
• 分布式数据计算
• 分布式资源调度
为一体的整体解决方案。
(2)Hadoop功能
近10年来,大数据技术体系一词一直和Hadoop是划上等号的,提起大数据技术基本就是在提及Hadoop。 通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:
(3)Hadoop框架内容
⚫ 狭义解释
Hadoop指Apache这款开源框架,它的核心组件有:
➢ HDFS(分布式文件系统):解决海量数据存储
➢ MAPREDUCE(分布式运算编程框架):解决海量数据计算
➢ YARN(作业调度和集群资源管理的框架):解决资源任务调度
⚫ 广义解释
广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈
2、Hadoop架构
(1)Hadoop架构模块
(2)HDFS和Yarn
➢ HDFS模块:
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据
SecondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据
➢ 数据计算核心模块:
ResourceManager:接收用户的计算请求任务, 并负责集群的资源分配
NodeManager: 负责执行主节点分配的任务
(3)MapReduce
➢ MapReduce计算需要的数据和产生的结果需要HDFS来进行存储
➢ MapReduce的运行需要由Yarn集群来提供资源调度
3、Hadoop集群搭建
⚫ 集群简介
HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。
➢ HDFS集群
NameNode、DataNode、SecondaryNameNode
➢ YARN集群
ResourceManager、NodeManage
⚫ 集群搭建方式
(1)Standalone mode(单机模式)
单机模式,1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,主要用于学 习和调试。
(2)Cluster mode(集群模式)
集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署 在不同的机器上