1、HDFS:Hadoop Distributed File System,基于Google’s GFS (Google File System)
2、HDFS块:当一个文件被添加到HDFS上时,它被分割成块。这是一个与本地文件系统相似的概念。默认块大小64M/128M(可配置)。配置文件是:vi /etc/hadoop/conf/hdfs-site.xml 。配置参数是:dfs.blocksize
3、HDFS喜欢更少、更大的文件。以减少元数据
4、每个HDFS块被存储在整个集群的多个不同节点上做冗余,每个块默认冗余3份。又叫复制因子数,可以修改。配置文件是:vi /etc/hadoop/conf/hdfs-site.xml 。配置参数是:dfs.replication。
5、HDFS块复制策略
1)块的第一个副本被放置在与客户机相同的节点上.如果客户端不是群集的一部分,则将第一个块放置在随机节点上。系统试图找到一个不太忙的
2)块的第二个副本被放置在位于不同机架上的节点上
3)块的第三个副本被放置在与第二个副本同一机架上的不同节点上