在大数据领域，如何实现存储计算分离？

最新推荐文章于 2024-07-13 13:42:26 发布

蜀州凯哥

最新推荐文章于 2024-07-13 13:42:26 发布

阅读量654

点赞数

分类专栏： Java高级技术系列文章标签： java 经验分享

本文链接：https://blog.csdn.net/m0_72088858/article/details/126864376

版权

Java高级技术系列专栏收录该内容

141 篇文章 16 订阅

订阅专栏

导读

在过去十几年的发展中，HDFS以其高容错性、高吞吐量等特性，成为分布式大数据体系的核心组件，稳坐分布式大数据存储的第一把交椅。随着各行各业对大数据技术的利用率提升，在面对不断扩张的大数据集群规模、不断增长大数据存储量级时，原生的HDFS架构设计在支撑能力上显露不足。虽然社区提出了Federation等概念，但依旧无法解决因单点元数据暴增带来的NameNode GC压力、DataNode的心跳汇报风暴等问题。此外对于海量小文件的处理一直也是HDFS的短板。因此，Apache Ozone应运而生。

HDFS痛点

首先和大家分享下HDFS当前面临的问题。

1. HDFS相关背景

从上述架构图上我们可以看到：

NameNode存储元数据，包含DataNode和Block的信息，元数据全部存储在内存中，元数据的访问速率很快。
所有的DataNode需要向NameNode进行心跳汇报；集群扩展很容易，仅需要增加DataNode节点即可。
但是这样的架构在集群达到一定规模时会显现出明显的不足：

元数据是全部存储到内存后，NameNode GC压力很大，从而导致元数据访问的延时存在波动。
以Block为单位上报状态，会形成汇报风暴，汇报量的增加也会导致NameNode启动时间增加。
基于以上的问题，HDFS社区有两个探索方向：Federation和Scaling HDFS。

2. Federation：从ViewFs到RBF

在Federation的设计中，存在两个阶段：

基于ViewFs：即每个客户端都拥有更高维度的视角，可以关联到所有的NameNode，这种架构下扩展集群仅需要增加NameNode即可。但是这样的设计需要修改客户端的配置，不利于客户端的升级。
基于RBF：即引入新的服务Router（路由组件），在这个服务中进行集中化的配置管理，客户端对底层的配置和变化无感知。这个方案较于ViewFs更成熟，当前业务选用也更多。
总结而言，Federation的设计思路都是通过扩展NameNode的个数来达到提升集群的数据存储上限的效果。

3. Scaling HDFS：Ozone

与Federation不同的是，Scaling HDFS的总体思路是提升单个NameNode节点的元数据上限，从而提升整个集群的数据存储上限。

这个想法自2014年下半年在HDFS社区开始提出，2015年正式启动。因为Ozone的发展节奏太过迅速，远超HDFS的版本迭代节奏，2020年Ozone正式从Hadoop的社区剥离，成为单独的项目，也就是现在的Apache Ozone。这个项目的核心目标是解决HDFS的NameNode扩展问题，解决其小文件导致的存储瓶颈问题，并希望能支持100+亿的文件处理。

Ozone架构上的优势

接下来和大家分享下Apache Ozone的架构设计。

1. Ozone架构设计

相比于原生的HDFS，Ozone做了以下的架构调整：

元数据存储：拆分NameNode，引入第三方存储。将NameNode元数据管理功能拆分成OM（Ozone Manager，用于存储文件的元数据）和SCM（Storage Container Manager，用于存储Container的元数据）。另外，元数据不再是all in memory的，我们引入了RocksDB替代原先的内存存储。通过引入持久化和元数据管理的分层，进而提升了原数据的上限。
增加Container抽象：引入Container作为一组block的抽象逻辑，心跳汇报以Container为单位，降低汇报量，也减少SCM的元数据存储量。
增加对象语义：支持文件协议和S3协议。Ozone的对象路径分为三层，分别为Volume、Bucket和Object （key）。如果需要访问某个Object，可以通过OM地址，找到对应的volume、对应的bucket，再取到对应的key进行访问

2. Ozone DataNode设计

Ozone DataNode将block分组，将每个组作为Container进行管理，DataNode仅收集Container的状态，并且以Container作为数据备份的单元。值得注意的是，Container内部的对于block的原数据管理也是使用Rocks DB。

Container存在OPEN和CLOSE的状态。当Container处于OPEN状态是，支持对其下的Block的数据进行写入，但是删除操作并非即时生效，会延后处理；当Container处于CLOSE的状态时（例如写满5GB的数据），不再接受新数据的写入，此时开始处理之前删除的block数据。

3. Ozone SCM设计

Ozone的SCM，类似于HDFS NameNode的Block管理模块。SCM负责所有的数据节点管理，Container的生命周期管理，以及备份的管理，比如备份数不足的Containers补足备份，备份数超过既定数的Containers清除多余备份。Ozone是依赖Apache Ratis进行一致性保证的，所以SCM中维护了很多Ratis Pipeline，SCM也负责对这些Pipeline进行管理。

4. Ozone 架构总结

下面这张图从更高的视角展现了Ozone的总体分层设计：

OM：Volume、Bucket、Key的元数据管理。
SCM：Container的元数据管理。
DataNode：维护Container，以及Container下的多个具体的block文件。
多层的设计核心目标就是为了提升原数据的上限，增加可扩展性。

Ozone新特性

接下来，就Ozone最新的一些特性进行说明。

1. Ozone FS

Ozone是对象存储。虽然在使用中用户会发现和HDFS的文件系统使用方式一样，但其实是利用对象存储的API模拟出来的。这就导致一个问题，在一些特殊操作中，例如Delete、Rename时，其效率远远比不上真正的文件系统。为此，腾讯和Ozone社区针对这个问题进行了不同方向的优化设计。

优化一：引入NameNode替代OM
来源于社区的一个思路，即不使用OM进行对象存储语义的处理，直接移植NameNode作为SCM的上层语义解析，原生态支持文件系统的语义，提升效率。

经过内部测试，这样的移植提升了整体处理性能，并提供了完整的文件语义支持，并且原先依赖HDFS的应用迁移时，无需额外代码调整，减少运维变化。

腾讯内部已经完成了这个思路的改造，因为不确定这样的改造是贡献给Hadoop还是Ozone，这个优化方案尚未正式开源。

优化二：优化OM的表设计
OM在处理一些操作慢的主要原因是Rocks DB 的KV结构在处理like这类事件时，导致的全表扫描效率极低（因为key是完整的路径，如果要删除某一个bucket底下的数据，无法精准获取key，只能使用like这类模糊查询的语义）。所以优化二的主体思路就是调整Rocks DB的表设计，提升查询效率。

优化二将最初的一张表设计，拆成两张表（文件表和目录表）。考虑到文件目录数量远远小于底层文件的数量，将文件目录和底层文件单独存储。比如进行rename操作时，不再需要遍历修改所有的key，只需要更新目录表中的某一条即可，整个时间复杂度为O(1)。同样进行delete操作时，仅需要删除目录表中的某一条即可，文件表中的key后台会异步清除，整个时间复杂度也是O(1)。

根据社区的测试，从性能的量级上可以和HDFS原生文件系统的性能量级达到一致。

2. Ozone Streaming

Ozone是利用Apache Ratis进行写入的一致性保证的，但是这个项目的引入其实降低了Ozone的写效率。举个例子，针对一个128M的Block的写入，被分成32个4M的Chunk，每个Chunk都会产生写的动作，每个Chunk对应的RaftLog也会产生“写”的动作，导致相对于HDFS，“多写了”32次。

我们正在通过Ozone Streaming对Ozone的写进行效率的优化，包括参考HDFS的写的过程，考虑落盘时不再依赖RaftLog，异步刷盘等。经过我们内部测试，当前即将开放的1.3版本的Ozone写的效率基本能达到HDFS的90%左右，相比于两年前的1.0的版本60%，已经有了显著的提升。

3. Ozone EC

Apache Ozone的设计目标就是针对超大规模的数据量级的存储，机器数量增加，成本也是需要慎重考虑的地方，因此Ozone EC（全称Erasure Coding，纠删码技术）也一直是我们关注的重点。

目前Ozone EC的开发进度来看：

EC的读写过程已经完成。
EC的编解码方式而言，RD和XOR的算法支持了，但是基于ISA-L的硬件编码加速还没有实现，计划参考Hadoop进行补充实现。
EC的策略与HDFS类似。
支持EC文件在在线修复，但是离线修复和副本文件的相互转化还没有实现。
现在EC的开发分支已经merge到master了，用户可以预览EC的功能。不过需要等离线修复功能开发完毕才能生产可用。

4. Ozone merge Rocks DB

因为Ozone默认是每个Container对应一个RocksDB的实例。我们在Ozone落地时发现，随着DataNode上数据量变多，会产生大量的RocksDB实例，会导致DataNode性能越来越差。因此我们优化了这部分的实现，让DataNode每块盘对应一个RocksDB实例，这样能极大减少RocksDB实例数（不会超过数据目录个数）。

从内部测试的情况来看，除了delete Container操作上效率有所降低，其他的操作效率都得到了显著提升。目前该功能已经开发完成并且已经merge到master。

蜀州凯哥

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
在大数据领域，如何实现存储计算分离？

导读在过去十几年的发展中，HDFS以其高容错性、高吞吐量等特性，成为分布式大数据体系的核心组件，稳坐分布式大数据存储的第一把交椅。随着各行各业对大数据技术的利用率提升，在面对不断扩张的大数据集群规模、不断增长大数据存储量级时，原生的HDFS架构设计在支撑能力上显露不足。虽然社区提出了Federation等概念，但依旧无法解决因单点元数据暴增带来的NameNode GC压力、DataNode的心跳汇报风暴等问题。此外对于海量小文件的处理一直也是HDFS的短板。因此，Apache Ozone应运而生。
复制链接

扫一扫