HDFS优缺点及解决方案

1 HDFS优缺点

1.1 HDFS优点

  • 海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别数据。
  • 高容错性:节点丢失,系统依然可用,数据保存多个副本,副本丢失后自动恢复。 可构建在廉价(与小型机大型机比)的机器上,实现线性扩展(随着节点数量的增加,集群的存储能力,计算能力随之增加)。
  • 文件存储:HDFS采用数据块的方式存储数据,将一个大文件切分成多个小文件,分布存储。

1.2 HDFS缺点

HDFS有几个缺点:

  • 元数据的扩展性:NameNode是一个中央元数据服务节点,也是集群管理节点,文件系统的元数据以及块位置关系全部在内存中。NameNode对内存的要求非常高,需要定制大内存的机器,内存大小也限制了集群扩展性。
  • 全局锁:NameNode 有一把FSNamesystem全局锁,每个元数据请求时都会加这把锁。虽然是读写分开的,且有部分流程对该锁的持有范围进行了优化,但依然大问题。
  • 块汇报风暴:HDFS块大小默认128M,启动几百PB数据量的集群时,NameNode需要接受所有块汇报才可以退出安全模式,因此启动时间会达数小时。

HDFS不适用场景:

  • 不能做到低延迟数据访问
  • 不适合大量的小文件存储
  • 不适合写多读少
  • 不适合并发写入

2 三种存储方案

2.1 块存储

2.1.1 描述

        块存储是将裸磁盘空间整个映射给主机使用的,可以选择直接将裸设备给操作系统使用,也可以划分经过RAID、逻辑卷等方式划分出多个逻辑的磁盘供系统使用(比如划分为6个500G的磁盘),主机层面操作系统识别出硬盘,但是操作系统无法区分这些映射上来的磁盘到底是真正的物理磁盘还是二次划分的逻辑磁盘,操作系统接着对磁盘进行分区、格式化,与我们服务器内置的硬盘没有什么差异。

        块存储不仅仅是直接使用物理设备,间接使用物理设备的也叫块设备,比如虚机创建虚拟磁盘。VMware、VirtualBox都可以创建虚拟磁盘。

2.1.2 优点

  • 通过RAID与LVM等手段,对数据提供了保护(RAID可实现磁盘的备份和校验,LVM可以做快照)
  • RAID将多块廉价的硬盘组合起来,构建大容量的逻辑盘对外提供服务,性价比高
  • 写数据时,由于是多块磁盘组合成的逻辑盘,可以并行写入,提升了读写效率
  • 很多时候块存储采用SAN架构组网,传输速率以及封装协议的原因,使得传输速度与读写速率得到提升

2.1.3 缺点

  • 采用SAN架构组网时,需要额外为主机购买光纤通道卡,还要买光纤交换机,造价成本高
  • 不利于不同操作系统主机间的数据共享,因为操作系统使用不同的文件系统,格式化完成后,不同文件系统间的数据是无法共享的

2.1.4 设备

  • 磁盘
  • 磁盘阵列

2.2 文件存储

2.2.1 描述

        文件存储主要解决块存储无法共享文件问题。

2.2.2 优点

  • 造价低
  • 适合文件共享
  • 大数据大文件存储

2.2.3 缺点

  • 读写速率低,传输速率慢
  • 文件数据太大会影响性能

2.3 对象存储

2.3.1 描述

        对象存储是一种数据存储,其中每个数据单元(称为“对象”)作为离散单元存储。这些对象实际上可以是任何类型的数据:pdf,视频,音频,文本,网站数据或任何其他文件类型。

        与文件存储相反,这些对象存储在单个平面结构中,没有文件夹层次结构。在对象存储中,与文件存储使用的嵌套分层结构不同,所有对象都存储在平面地址空间中。此外,所有默认和自定义元数据都与对象本身(不作为单独的文件系统表或索引的一部分)一起存储在具有唯一标识符的平面地址空间中,并且这种方式变得更容易索引和访问。

        对象存储在基于云的存储方案中非常常见,可用于以极高的可伸缩性和可靠性管理,处理和分发内容。平面寻址方案意味着访问单个对象既快速又简单:对象名称可以作为查找表中的“键”。对象存储系统只需要知道您要查找的对象的键(名称),然后可以使用查找表快速轻松地将其返回给您。

2.3.2 优点

  • 结合了块存储与文件存储的优点

2.3.3 缺点

  • 数据库等追求高性能的应用更适合采用块存储
  • 对象存储的成本比普通的文件存储还是较高

2.4 三种存储方案对比

对象存储文件存储块存储
一致性最终一致性强一致性强一致性
结构非结构化层级结构以块为结构
存储级别对象级别文件级别块级别
应用举例

腾讯云COS

阿里云OSS

AWS的S3

HDFS

Ceph 的 CephFS

Sheepdog

AWS 的 EBS

阿里云的盘古系

3 解决方案-对象存储

        对象存储,也称为基于对象的存储,是一种扁平结构,其中的文件被拆分成多个部分并散布在多个硬件间。在对象存储中,数据会被分解为称为“对象”的离散单元,并保存在单个存储库中,而不是作为文件夹中的文件或服务器上的块来保存。

3.1 OSS

        阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高持久的云存储服务。

3.2 MinIO

        MinIO是个高性能,云原生的对象存储,提供了与 Amazon S3 云存储服务兼容的 API,使用 MinIO 为机器学习、分析和应用程序数据工作负载构建高性能基础架构,轻量,操作简单。

3.3 Ceph

        Ceph 是一个分布式对象、块和文件存储平台。红帽支持的存储解决方案,能够提供企业中三种常见的存储需求:块存储、文件存储和对象存储,相当于是全平台解决方案。

3.4 SeaweedFS

        SeaweedFS是一种简单的、高度可扩展的分布式文件系统。旨在优化Fackbook内部图片存储和获取。SeaweedFS最初作为一个对象存储来有效地处理小文件。中央主服务器只管理文件卷,而不是管理中央主服务器中的所有文件元数据,它允许这些卷服务器管理文件及其元数据。这减轻了中央主服务器的并发压力,并将文件元数据传播到卷服务器,允许更快的文件访问(只需一个磁盘读取操作)。

参考:

https://mp.weixin.qq.com/s/5tEZsswlZMqS9pjV1h2rEg 

https://www.redhat.com/zh/topics/data-storage/file-block-object-storage文件存储、块存储还是对象存储?

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值