在昨天我总结了一些hadoop的常识性的知识,那么接下来我就总结一下hadoop中HDFS的知识点。
1.HDFS的由来
HDFS全称是Hadoop Distributed Filesystem,是借鉴于Google的GFS开发的分布式文件系统。那么什么又是分布式文件系统呢?管理网络中跨多台计算机存储的文件系统称为分布式文件系统。这个文件系统要求能够容忍节点故障且不丢是任何数据。
2.HDFS的结构
HDFS是一种主从式结构。HDFS集群中包含一个NameNode(在hadoop2.x结构中有两个Namenode)主节点和多个DataNode从节点。
NameNode管理所有文件系统的元数据。这些包括文件系统的所有目录和文件同样也记录着各个数据块锁在的节点信息。
DataNode存储文件。存储的文件被分为大小相等的block块(默认为64MB).为保证数据安全有多个文件副本,存放在不同的DataNode上。
3.HDFS的优点
良好的扩展性
高容错性
数据自动保存多个副本
副本丢失或自动恢复
适合PB级以上海量数据的存储
适合大数据处理
可以有10K+节点
适合批量处理
移动计算而不是数据(分配任务时将任务分配到数据存储的节点)
流式文件访问
一次写入多次读取 高效的访问模式
保证数据的一致性
可构建在廉价机器上
通过多副本提高可靠性
提供了容错和恢复机制
4.HDFS的缺点
不能实现低延迟数据访问 数据量的高吞吐的代价就是数据处理的高延迟
小文件存储占用namenode 读取时间慢,文件系统所能存储的文件总数受制于namenode的内存容量。
不支持并发写入,文件只能有一个写者而且写操作总是将数据添加在文件的末尾不支持在文件的任意位置进行修改。
今天就总结这么多,明天会继续将HDFS介绍下去