HDFS- 优势与弊端

HDFS 优点

硬件故障预防

一个 HDFS 实例有可能包含数百台或数千台服务器,每一个台机器都存储文件系统数据的一部分,这种情况下硬件故障是常态。而 HDFS 可检测故障并从中快速自动恢复。

流数据访问

HDFS 设计用于批处理而不是用户的交互式使用,其重点是数据访问的高吞吐量而并不追求数据访问的低延迟。

处理大数据集

HDFS 的核心目标就是为处理具有大数据量的应用,在其上运行的应用的文件大小一般都为 TB 级别。HDFS 可提供高聚合数据带宽并且要扩展到集群中的数百个节点上,并对于单个应用可支持上千万个文件。

简单一致模型

HDFS 应用程序是一个"一次写入多次读取"的文件访问模型。这种模型可以简化数据的一致性问题并且能够实现高吞吐数据访问。一旦写入不能修改只能增加(append)

移动计算替代移动数据

Moving Computation is Cheaper than Moving Data

当一个计算程序与数据同在一个物理节点上时,运算最高效,特别是当数据量特别大时,移动计算远优于移动数据集。移动计算可以最大限度地减少网络拥塞并提高系统的整体吞吐量。HDFS 设计的是将计算迁移到更靠近数据所在的位置,而不是将数据移动到运行应用程序的位置。HDFS 为应用程序提供了接口,使其自身更靠近数据。

跨异构硬件和软件平台的可移植性

HDFS 的设计便于从一个平台移植到另一个平台。 这有助于广泛采用 HDFS 作为大量应用程序的首选大数据处理平台。

缺点

不适合低时间延迟的访问

如果要处理一些用户要求时间比较短的低延迟应用请求,则HDFS不适合。HDFS是为了处理大型数据集分析任务的,主要是达到高的数据吞吐量而设计的,这就可能要求以高延迟作为代价。

无法高效存储小文件

因为nameNode把文件系统的元数据放置在内存中,所以文件系统所能容纳的文件数目是由NameNode的内存大小来决定的,一般来说,每一个文件、文件夹和Block需要占据150字节左右的空间,所以,如果你有100万个文件,每一个占据一个Block,你就至少需要300MB的内存,当前来说,数百万的文件还是可行的,当扩展到数十亿时,对于当前的硬件水平来说就无法实现了。还有一个问题就是,因为Map task的数量是由splits来决定的,所以用MR处理大量小文件时,就会产生过多的Maptask,线程管理开销将会增加作业时间。举个例子,处理10000M的文件,若每个split1M,那么就会有10000maptasks,会有很大的线程开销;若每个split100M,则100Maptasks,每个maptask将会有更多的事情做,而线程的管理开销也将会减小很多。

不支持多用户写入及任意修改文件

一个文件只有一个写线程,不能多个线程同时读写,而且写操作只能在文件末尾完成,仅支持文件的追加(append),不支持修改。

参考文献

HDFS体系结构简介及优缺点
HDFS 优缺点

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

piepis

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值