海量数据存储面临的问题

原创已于 2025-06-04 20:58:05 修改 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#海量数据 #数据存储 #分布式存储 #hdfs #Ceph

于 2023-01-10 15:26:18 首次发布

分布式存储同时被 2 个专栏收录

12 篇文章

订阅专栏

Hadoop

6 篇文章

订阅专栏

海量数据存储面临的问题

成本高

传统存储硬件通用性差，设备投资加上后期维护，升级扩容的成本非常高。

例如：盘位满了，要换更多盘位的机器。3

性能低

单节点I/O性能瓶颈无法逾越，难以支撑海量数据的高并发高吞吐场景。

可扩展性差

无法实现快速部署和弹性扩展，动态扩容、缩容成本高，技术实现难度大。

如何实现分布式文件存储

如何支撑高效率的计算分析

传统存储方式意味着数据存储是存储，计算是计算，当需要处理数据的时候把数据移动过来(存储不动，数据移动)。
程序和数据存储是属于不同的技术厂商实现无法有机统一整合在一起。

如何解决海量数据存储的问题

传统做法是单机存储，随着数据变多，会遇到存储瓶颈。

单机纵向扩展：
内存不够加内存，磁盘不够加磁盘，有上限限制，不能无限制加下去。
多机横向扩展：
采用多台机器存储，一台不够就加机器。理论上可以无限。
多台机器存储也意味着迈入了分布式存储。

如何解决海量数据文件查询便捷问题

当文件被分布式存储在多台机器之后，后续获取文件的时候如何能快速找到文件位于哪台机器上呢？

一台一台查询过来是不靠谱的。因此可以借助于元数据记录来解决这个问题。把文件和其存储的机器的位置信息记录下来，类似于图书馆查阅图书系统，这样就可以快速定位文件存储在哪一台机器上了。

如何解决大文件传输效率慢的问题

大数据使用场景下，GB、TP级别的大文件是常见的。当单个文件过大的时候，如何提高传输效率？

通常的做法是分块存储：

把大文件拆分成若干个小块(block简写blk)，分别存储在不同机器上，并行操作提高效率。

此外分块存储还可以解决数据存储负载均衡问题。此时元数据记录信息也应该更加详细：文件分了几块，分别位于哪些机器上。

如何解决硬件故障数据丢失问题

如何解决用户查询视角统一规整问题

namespace也可以理解为文件夹的目录

分布式存储应具备的特征

几种常见的存储类型

在这里插入图片描述

块存储

块存储通常都是通过光纤网络连接，服务器/小机上配置FC光纤HBA卡。以iSCSI客户端连接存储。
块存储适用于：读写性能要求高的场景。
例如:

数据库
虚拟化
云计算

块存储可提供高速数据处理、低延迟和高性能存储。
任何需要快速访问数据的服务都可以与块存储配合使用。例如:

实时分析、
高性能计算和具有大量快速交易的系统都受益于块存储

文件存储（兼容性好）

文件存储指的是：

NFS
CIFS（SMB/Samba）

文件存储时，它附加的元数据有限，例如:

创建日期、
修改日期
文件大小。
随着数据量的增长，这种简单的组织架构可能会引发问题。性能可能下降是因为文件系统上的资源需求不断增加以跟踪文件和文件夹，并且这些“结构”问题无法通过简单地增加文件系统可用的存储空间来解决。

尽管存在大规模潜在问题，但文件系统在工作场所和大中型企业中使用的个人计算机和服务器上的日常使用情况良好。通常在硬盘驱动器和网络连接存储（NAS）系统上看到并部署文件存储。

对象存储

对象存储只能存取删（put/get/delete），不能打开修改存盘。只能取下来改好后上传，去覆盖原对象。

对象存储最适合用于大量非结构化数据，尤其是当持久性、无限存储、可扩展性和复杂的元数据管理是影响整体性能的相关因素时。其中每个数据单元（称为“对象”）作为离散单元存储。这些对象实际上可以是任何类型的数据：pdf，视频，音频，文本，网站数据或任何其他文件类型。

与文件存储正好相反，这些对象存储在单个平面结构中，没有文件夹层次结构。在对象存储中，与文件存储使用的嵌套分层结构不同，所有对象都存储在平面地址空间中。此外，所有默认和自定义元数据都与对象本身（不作为单独的文件系统表或索引的一部分）一起存储在具有唯一标识符的平面地址空间中，并且这种方式变得更容易索引和访问。
对象存储在基于云的存储方案中非常常见，可用于以极高的可伸缩性和可靠性管理，处理和分发内容。平面寻址方案意味着访问单个对象既快速又简单：对象名称可以作为查找表中的“键”。对象存储系统只需要知道您要查找的对象的键（名称），然后可以使用查找表快速轻松地将其返回给您。