HDFS是什么?
HDFS是 Hadoop Distribute File System (Hadoop 分布式文件系统)的简称,是 Hadoop 的一个分布式文件系统。
HDFS主要特性?
1. 主从结构。
一个HDFS集群是由一个名字节点(NameNode)和多个数据节点(DataNode)组成,它们通常配置在不同的机器上。
2. 大文件分割
HDFS优化了大文件的流式读取方式,适合处理超大文件,数量级达到GB、TB甚至PB级,它把一个大文件分割成一个或者多个数据块(默认的大小为64MB),分发到集群的节点上,从而实现了髙吞吐量的数据访问。
3. 块复制
HDFS没计者认为硬件故障是经常发生的,所以采用了块复制的概念,让数据在集群的节点间进行复制 ( H D F S有一个复制因子参数,默认为3 ),从而实现了一个髙度容错性的系统。
4. 对硬件要求低
能够运行在廉价的商用机器集群
5. 跨平台。
使用Java语言开发,支持多个主流平台环境。
6. shell命令接口。
和Linux文件系统一样,拥有文件系统shell命令,可直接操作HDFS。
7. Web界面。
NameNode和DataNode有内置的Web服务器,方便用户检查集群的当前状态。
8. 文件权限和授权。
拥有和Linux系统类似的文件权限管理。
9. 机架感知功能。
在调度任务和分配存储空间时系统会考虑节点的物理位置,从而实现高效访问和计算。
10. 安全模式。
一种维护需要的管理模式。
11. 负载均衡。
当DataNode之间数据不均衡时,可以平衡集群上的数据负载,实现数据负载均衡。
HDFS不适用于哪些场景?
-
不适合需要高效存储大、量小的场景
-
不适合低延迟的数据访问场景
-
不适合多用户同时写和任意修改该文件场景