1.文件系统
磁盘块(物理块):一般为512Bytes或1024Bytes
逻辑块(文件系统块):一般为几KB,通常为磁盘块的整数倍
Linux Ext2中还有一个重要概念:片(fragment):用于避免“内碎片”
物理块大小 <= 片大小 <= 逻辑块大小
2.HDFS(Hadoop分布式文件系统)
HDFS中块(block)默认大小为64MB,不同于其他FS,HDFS中小于一个块大小的文件不会占据整个块的空间。
为什么HDFS处理大量小文件是低效的?
HDFS客户端需要不断地(每个文件至少一次)与namenode通讯,获取文件的元数据,之后才能从datanode中读取真正的数据。若这些小文件是以一个大文件的形式保存的话,则只需要与namenode交互一次(正常情况下)即可从datanode的取出数据。
客户端读取HDFS操作的流程
客户端写入HDFS操作的流程