HDFS的设计

HDFS以流式数据访问模式来存储超大文件,运行在商用硬件集群上。我们先阅读以下的文字:

1. 超大文件

超大文件这里是指具有几百MB、几百GB、几百TB、PB级别的数据文件。

2.流式数据访问

HDFS的构建思路是这样的,一次写入、多次读取是最高效的访问模式。数据集通常由数据源生成或从数据源复制而来,接着长时间在此数据集上进行各种分析。但每次分析都将涉及该数据集的大部分数据甚至全部,因此读取整个数据集的时间延迟要比读取第一条记录的时间延迟更为重要。

3.商用硬件

Hadoop不需要依赖昂贵并且高可靠的硬件基础。它用普通硬件就可以实现它的功能价值,比如我们日常使用的电脑。可是对于一个庞大的集群来说,出现节点故障的几率还是很高的,所以在运用HDFS时,我们要尽可能的设计一个能够持续运行并且不让用户察觉到系统明显的中断错误。

4.低时间的的数据访问

要求低时间延迟数据访问的应用,例如几十毫秒的时间范围,不适合在HDFS上运行。因为HDFS本身是为大数据高吞吐量应用而设计的,运用不当的情况下,会延迟数据处理的时间。

5.大量的小文件

由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存容量。如果存储的数据量非常大,就可能超过了该硬件的支持能力。

6.多用户写入,任意修改文件

HDFS中的文件只支持单个写入者,而且写操作总是以“只添加”的方式在文件末尾写数据。它不支持多个写入者的操作,也不支持在文件的任意位置进行修改,但说不准以后的技术能够实现这类操作,但总之它们比较低效。

---以上内容摘自《Hadoop权威指南》第四版

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值