1 HDFS原理分析
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。
https://blog.csdn.net/weixin_40035337/article/details/108006138
1.1 HDFS有什么动机和目的
1)提供较高的容错率,因为数据有备份,通过机架感知策略,namenode会尽量将数据的复本放到不同的机架上,所以小规模的宕机不影响数据的存储。
宕机:down 机,指操作系统无法从一个严重系统错误中恢复过来,或系统硬件层面出问题,以致系统长时间无响应,而不得不重新启动计算机的现象。
2)可以使用低成本的硬件搭建一个分布式文件系统。
3)能提供大规模的数据存储,上TB、PB级的规模。
4)高吞吐(并发)的数据访问,获得一个完整的数据可以从多个机器上同时读取。
数据不动计算动
5)计算时数据读取的方式多采用本地化方式,如果本地化方式不满足则采用临近网络的方式,这也是通过机架感知策略。
1.2 HDFS的系统结构
/data --> HDFS的数据存储目录
HA:高可用。zookeeper ZKFC
----------------------------------------------
namenode:是大领导。管理数据块映射;处理客户端的读写请求。一般有一个active状态的namenode,有一个standby状态的namenode,其中,a