【Ceph】Ceph中Bufferlist的设计与使用

最新推荐文章于 2023-08-31 11:41:12 发布

bdview

最新推荐文章于 2023-08-31 11:41:12 发布

阅读量357

点赞数

本文链接：https://blog.csdn.net/weixin_42319496/article/details/119371286

版权

Ceph的Bufferlist是核心组件，管理所有内存操作。它由buffer::ptr链表组成，每个ptr指向buffer::raw，后者管理内存引用计数。Bufferlist允许高效编码、解码和内存管理，通过buffer::raw_malloc、buffer::raw_mmap_pages等变体进行内存分配。

摘要由CSDN通过智能技术生成

原文：

1、http://www.voidcn.com/article/p-kmnnilin-kd.html

2、https://zhuanlan.zhihu.com/p/96659509

3、https://www.jianshu.com/p/01e1f4e398df

如果非要在整个Ceph中，找出一个类最重要，我觉得非Bufferlist莫属了，原因很简单，因为Bufferlist负责管理Ceph中所有的内存。整个Ceph中所有涉及到内存的操作，无论是msg分配内存接收消息，还是OSD构造各类数据结构的持久化表示(encode/decode)，再到实际磁盘操作，都将bufferlist作为基础。

ceph::buffer是ceph非常底层的实现，负责管理ceph的内存。ceph::buffer的设计较为复杂，但本身没有任何内容，主要包含buffer::list、buffer::ptr、buffer::raw、buffer::hash。这三个类都定义在src/include/buffer.h和src/common/buffer.cc中。

buffer::raw：负责维护物理内存的引用计数nref和释放操作。
buffer::ptr：指向buffer::raw的指针。
buffer::list：表示一个ptr的列表(std::list<bufferptr>)，相当于将N个ptr构成一个更大的虚拟的连续内存。

buffer::hash：一个或多个bufferlist的有效哈希。

buffer这三个类的相互关系可以用下面这个图来表示：

图中蓝色的表示bufferlist，橙色表示bufferptr，绿色表示bufferraw。

在这个图中，实际占用的系统内存一共就三段，分别是raw0，raw1和raw2代表的三段内存。其中：
raw0被ptr0，ptr1，ptr2使用
raw1被ptr3，ptr4，ptr6使用
raw2被ptr5，ptr7使用
而list0是由ptr0-5组成的，list1是由ptr6和ptr7组成的。

从这张图上我们就可以看出bufferlist的设计思路了：对于bufferlist来说，仅关心一个个ptr。bufferlist将ptr连在一起，当做是一段连续的内存使用。因此，可以通过bufferlist::iterator一个字节一个字节的迭代整个bufferlist中的所有内容，而不需要关心到底有几个ptr，更不用关心这些ptr到底和系统内存是怎么对应的；也可以通过bufferlist::write_file方法直接将bufferlist中的内容出到一个文件中；或者通过bufferlist::write_fd方法将bufferlist中的内容写入到某个fd中。

与bufferlist相对的是负责管理系统内存的bufferraw。bufferraw只关心一件事：维护其所管理的系统内存的引用计数，并且在引用计数减为0时——即没有ptr再使用这块内存时，释放这块内存。

连接bufferlist和bufferraw的是bufferptr。bufferptr关心的是如何使用内存。每一个bufferptr一定有一个bufferraw为其提供系统内存，然后ptr决定使用这块内存的哪一部分。bufferlist只用通过ptr才能对应到系统内存中，而bufferptr而可以独立存在，只是大部分ptr还是为bufferlist服务的，独立的ptr使用的场景并不是很多。

通过引入ptr这样一个中间层次，bufferlist使用内存的方式可以非常灵活，这里可以举两个场景：

1. 快速encode/decode
在Ceph中经常需要将一个bufferlist编码(encode)到另一个bufferlist中，例如在msg发送消息的时候，通常msg拿到的osd等逻辑层传递给它的bufferlist，然后msg还需要给这个bufferlist加上消息头和消息尾，而消息头和消息尾也是用bufferlist表示的。这时候，msg通常会构造一个空的bufferlist，然后将消息头、消息尾、内容都encode到这个空的bufferlist。而bufferlist之间的encode实际只需要做ptr的copy，而不涉及到系统内存的申请和Copy，效率较高。

2. 一次分配，多次使用
我们都知道，调用malloc之类的函数申请内存是非常重量级的操作。利用ptr这个中间层可以缓解这个问题，即我们可以一次性申请一块较大的内存，也就是一个较大的bufferraw，然后每次需要内存的时候，构造一个bufferptr，指向这个bufferraw的不同部分。这样就不再需要向系统申请内存了。最后将这些ptr都加入到一个bufferlist中，就可以形成一个虚拟的连续内存。

关于作者1：袁冬博士，UnitedStack产品副总裁，负责UnitedStack产品、售前和对外合作工作；云计算专家，在云计算、虚拟化、分布式系统和企业级应用等方面有丰富的经验；对分布式存储、非结构数据存储和存储虚拟化有深刻地理解，在云存储和企业级存储领域有丰富的研发与实践经验；Ceph等开源存储项目的核心代码贡献者。

相关文章：https://www.jianshu.com/p/6c8b361cc665

源码分析 (http://bean-li.github.io/buf