一、什么是HDFS?
HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储
服务而存在。
1)HDFS集群包括,NameNode和DataNode以及Secondary Namenode。
2)NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。
3)DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本。
4)Secondary NameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。最主要作用是辅助namenode管
理元数据信息
二、HDFS分块存储
hdfs将所有的文件全部抽象成为block块来进行存储,不管文件大小,全部一视同仁都是以block块的统一大小和形式进行存储,方便我
们的分布式文件系统对文件的管理
所有的文件都是以block块的方式存放在HDFS文件系统当中,在Hadoop1当中,文件的block块默认大小是64M,Hadoop2当中,文件
的block块大小默认是128M,block块的大小可以通过hdfs-site.xml当中的配置文件进行指定:
dfs.block.size
块大小 以字节为单位//只写数值就可以
个文件100M,上传到HDFS占用几个快?
一个块128M,剩余的28M怎么办?
事实上,128只是个数字,数据超过128M