目录
分布式文件系统(Hadoop Distributed File System)
分布式文件系统(Hadoop Distributed File System)
随着数据量的不断增大,传统的数据处理技术已经无法满足大数据处理。所以出现了分布式文件存储系统。需要将数据分区并储存若干个计算上中。这就出现了数据不方便管理的问题!分布式文件管理系统就是用来管理多台机器上的文件的。
分布式文件系统是一种允许文件通过网络在多台主机上进行分享的文件系统,可让多台机器上的多用户分享文件和存储空间
HDFS 的基本思想
化大为小,分而治之。
具体就是将一个超大的数据,分成N个小文件。多个机器进行存储。
HDFS 数据单位 数据块 DataBlock --> 一秒定律来决定大小 --> 150M/S --> 128M
HDFS 是 Hadoop 的一个分布式