目录
QJM(Quorum JournalNode Manager 共享存储系统):
1.Hadoop
狭义上来说,hadoop就是单独指代hadoop这个软件,
广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件
Hadoop官网
网址 http://hadoop.apache.org/
https://archive.apache.org/dist/hadoop/common/hadoop-3.1.2/
2. 分布式文件系统架构
FS文件系统
文件系统是基于硬盘之上的一个文件管理的工具
我们用户操作文件系统可以和硬盘进行解耦
HDFS 分布式文件系统
将我们的数据存放在多台电脑上存储
分布式文件系统有很多,
HDFS是mapreduce计算的基础
3. 文件切分思想
文件存放在同一个磁盘上效率低
读取效率低
如果文件特别大会超出单机的存储范围
字节数组
文件在磁盘真实存储文件的抽象概念
数组可以进行拆分和组装,源文件不会受到影响
切分数据
对字节数组进行切分
拼接数据
按照数组的偏移量将数据连接到一起,将字节数组链接到一起
偏移量
当前数据在数组中的相对位置,你可以理解为 下标
数组都有对应的索引(下标),可以快速的定位数据
4. Block块拆分
拆分的数据块需要等大
一个Block块在H1默认大小为64M,在H2及其以后默认大小为128M
同一个文件中,每个数据块大小要一致除了最后一个节点外
真实情况下,会根据文件大小和集群节点的数量综合考虑块的大小
数据块的个数 =Ceil( 文件大小 / 每个块的大小)
一般HDFS存储的都是历史数据。所以 将来Hadoop的mr都用来进行离线数据的处理
注意:
HDFS中一旦文件被存储,数据不允许被修改
只要有一个块丢失,整个数据文件损坏
为什么Block块要等大?
数据计算的时候简化问题的复杂度
进行分布式算法设计的时候,数据不统一,算法很难设计
数据拉取的时候时间相对一致
通过偏移量就知道这个块的位置
相同文件,分成的数据块大小应该相等
5. HDFS的优缺点
优点:
高容错性
保存多个副本,且提供容错机制。
副本丢失或宕机自动恢复。默认存3份
运行在廉价的机器上(商用机)
通过副本提高可靠性
提供了容错和恢复机制
适合批处理、适合大数据的处理
移动计算而非数据
数据位置暴露给计算框架。NameNode上