HDFS的设计目标及其应用场景

本文介绍了HDFS,Hadoop的分布式文件存储系统,用于存储大规模数据并提供统一接口。它强调了HDFS的高容错性、大文件存储优势以及一次写入多次读取的特点,同时也讨论了其低延迟访问的不足和不适用于存储大量小文件的问题。
摘要由CSDN通过智能技术生成

HDFS的基本概念:

1.HDFS的概述:

HDFS:(Hadoop Distributed File System)就是hadoop的分布式文件存储系统,主要是用来存储海量数据(TB,PB以上的级别),并且为用户提供一个统一的资源访问接口,让用户感觉到只是在访问一个普通的文件系统。

分布式:分布式是指将系统的组件或任务分散到不同的计算机或节点上进行处理的计算模型。在分布式系统中,不同的计算机或节点通过网络连接进行通信和协调,共同完成一个任务或提供一个服务。分布式存储比普通存储方式节省时间。

HDFS本质上就是一个分布式文件存储系统,通过这个软件,实现多个服务器的磁盘进行打通操作,构建一个更大的存储空间,交由HDFS进行管理,而数据最终都是落在各个服务器的本地磁盘上。

2.HDFS的优点:

(1)存储非常大的文件:适合于存储大文件。且成本低,大大缩短了处理时间,可以实现高吞吐量。

(2)高容错:HDFS利用众多服务器实现分布式存储,每个数据文件都有2个冗余备份,也就是每个数据文件都将被存储3次。如果存储数据的某个服务器发生了故障,数据还有2个备份,因此,HDFS具有高容错的特性,允许服务器发生故障。

(2)一次写入,多次读取:一旦将数据存储进去后,不需要对数据进行修改,后期只是查询。

3.HDFS的缺点:

(1)低延时的数据访问,对延时要求在毫秒级别的应用。

(2)不适合存储大量的小文件:因为每个文件都会产生各自的元数据,而元数据存储在Namenode的内存中,小文件过多容易导致NameNode存储出现瓶颈。

(3)需要进行多次修改数据的操作业务。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值