目录
01 为什么需要分布式存储
1. 了解为什么海量数据需要使用分布式存储技术
大文件在单独的服务上存储不了,可以把文件划分为多个部分。
靠数量取胜,多台服务器组合才能hold住。
2. 分布式的性能提升
分布式不仅仅是解决了能存的问题, 多台服务器协同工作 带来的也是性能的横向扩展。
存储和取出数据都能提升。
3. 总结
为什么需要分布式存储?
数据量太大,单机存储能力有上限,需要靠数量来解决问题 数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。 分布式组合在一起可以达到1+1>2的效果
02 分布式的基础架构分析
1. 了解实现一个分布式系统如何做基础架构
数量多,在现实生活中往往带来的不是提升,而是:混乱。同学们思考一下, 众多的服务器一起工作,是如何高效、不出问题呢?
大数据体系中,分布式的调度主要有2类架构模式: 去中心化模式、中心化模式
去中心化模式:没有明确的中心。 众多服务器之间基于特定规则进行同步协调。
中心化模式:
大数据框架,大多数的基础架构上,都是符合:中心化模式的。即:有一个中心节点(服务器)来统筹其它服务器的工作,统一指挥,统一调派,避免混乱。 这种模式,也被称之为:一主多从模式,简称主从模式(Master And Slaves)
主从模式(中心化模式)在现实生活中同样很常见: 公司企业管理、组织管理、行政管理等等。我们学习的Hadoop框架,就是一个典型的主从模式(中心化模式)架构的技术框架。
2.总结
1). 分布式系统常见的组织形式?
去中心化模式:没有明确中心,大家协调工作
中心化模式:有明确的中心,基于中心节点分配工作
2). 什么是主从模式?
主从模式(Master-Slaves)就是中心化模式,表示有一个主节点来作为管理者,管理协调下属一批从节点工作。
3). Hadoop是哪种模式?
主从模式(中心化模式)的架构
03 HDFS的基础架构
1. 了解什么是HDFS及其和Hadoop的关系
HDFS是Hadoop三大组件(HDFS、MapReduce、YARN)之一
- 全称是:Hadoop Distributed File System(Hadoop分布式文件系统)
- 是Hadoop技术栈内提供的分布式数据存储解决方案
- 可以在多台服务器上构建存储集群,存储海量的数据
HDFS是一个典型的主从模式架构
2. HDFS的基础架构
主角色发布命令,从角色根据命令干活。
NameNode:
- HDFS系统的主角色,是一个独立的进程
- 负责管理HDFS整个文件系统
- 负责管理DataNode
SecondaryNameNode:
- NameNode的辅助,是一个独立进程
- 主要帮助NameNode完成元数据整理工作(打杂)
DataNode:
- HDFS系统的从角色,是一个独立进程
- 主要负责数据的存储,即存入数据和取出数据
3. 总结
1). 什么是HDFS?
- HDFS全称:Hadoop Distributed File System
- 是Hadoop三大组件(HDFS、MapReduce、YARN)之一
- 可在多台服务器上构建集群,提供分布式数据存储能力
2). HDFS中的架构角色有哪些?
- NameNode:主角色,管理HDFS集群和DataNode角色
- DataNode:从角色,负责数据的存储
- SecondaryNameNode:辅助角色,协助NameNode整理元数据
3). HDFS的基础架构