ceph写流程分析

之前总结的ceph写流程分析笔记,代码是基于jewel版本10.2.0,现分享出来,欢迎指点。
原文链接:ceph写流程分析

一、rbd到OSD映射关系

​ 客户端使用RBD设备,使用librbd、librados库进行访问管理块设备。

​ 1、创建 一个pool,为这个pool指定pg的数量,同时在这个pool中指明保存数据的副本数(通常为3个副本)。

​ 2、在这个pool中创建一个rbd设备rbd0,那么这个rbd0都会保存三份,在创建rbd0时必须指定rbd的size,对于这个rbd0的任何操作不能超过这个size。

​ 3、将这个块设备进行切块,每个块的大小默认为4M,并且每个块都有一个名字,名字就是object+序号。

​ 4、将每个object通过pg进行副本位置的分配,pg会寻找3个osd,把这个object分别保存在这三个osd上。最后对于object的存储就变成了存储一个文件 rbd0.object1.file。数据层次映射图如下: ceph数据的映射层次

​ 经过pool,rbd,object、pg的层层映射关系,在PG这一层中,已经知道存储数据的3个OSD所在位置及主从关系。

​ 客户端与primay OSD建立SOCKET 通信,将要写入的数据传给primary OSD,由primary OSD再将数据发送给其他replica OSD数据节点。

​ 读写框架图: ceph读写框架

二、写请求流程

1、rbd上的处理

​ 在rbd中一个操作对象为一个image,这个请求经过处理拆分成object对象的请求,拆分后交给Objector进行处理,找到目标osd的集合及主osd。

​ 将请求封装成MOSDOp消息,交由SimpleMessenger处理,SimpleMessager会尝试查找 / 创建一个OSDSession,并且为这个OSDSession创建一个数据通道pipe。消息从SimpleMessager收到后会保存到pipe的outq队列中。

​ pipe 与目标osd建立Socket通信通道,并有专门的写线程writer来负责socket通信。writer线程同时监视这个outq队列,当队列中存在消息等待发送时,会就将消息写入socket,发送给目标OSD。

​ OSD将数据消息处理完成之后,进行回调,反馈执行结果。

​ 关键代码序列图如下: libRBD write

2、osd上的处理

​ OSD接收到message信息以后,解析并将消息转换成OpRequest,加入dispatch队列。同时从message中得到pool及PG的信息,将message交由PG进行相关处理。此时从OSD处理的message转化为了PG处理的op,添加到osd->op_wq队列中。PG中创建一个OpContext结构,接管message中的所有ops的操作。

​ 解析出OpRequest中的所有op与data,用Transaction结构进行管理,即将ops与Transaction绑定,将操作和数据打包成事务,并发送给其他副本,同时管理自己和其他副本的数据处理统计,创建repop 所有的applied与commit的管理。

​ 提交事务后,交由filestore进行处理。

​ 如果数据处理完成了,使用eval_repop()进行收尾的工作,将结果回调给客户端。

​ 关键代码序列图如下: osd write

3、filestore上的处理

​ 当数据进行写入的时候需要写到journal中一份,当data数据失败的时候可以从journal中进行恢复。从_op_journal_transactions()开始激发写入日志的操作,回调函数C_JournaledAhead的会在日志完成之后进行回调处理,将data写入磁盘。

​ 将日志保存完成的回调ondisk交给ondisk_finisher,ondisk注册回调为C_OSD_OnOpApplied,在后续finisher线程中处理。在该函数中,循环处理需要回调的请求,回复刚开始接收到请求的MOSDOp的操作,将请求发还给客户端。

​ 写完data的回调函数注册的为C_OSD_OnOpCommit,该函数处理并回复OSD一些状态的逻辑。

​ 关键代码序列图如下:file_write

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Ceph中,stripe是一种将数据分片存储的概念。当进行文件读取操作时,需要通过一系列的计算来确定数据所在的具体位置。本文以CephFS的文件读取流程为例进行分析。 首先,在文件读取过程中,Ceph会将文件划分为若干个条带(stripe),每个条带由多个对象分片(stripe unit)组成。条带可以看作是逻辑上连续的一维地址空间。 接下来,通过file_to_extent函数将一维坐标转化为三维坐标(objectset,stripeno,stripepos),来确定具体的位置。其中,objectset表示所在的对象集,stripeno表示条带号,stripepos表示条带内的偏移位置。 具体的计算过程如下:假设需要读取的数据的偏移量为offset,每个对象分片的大小为su(stripe unit),每个条带中包含的对象分片数为stripe_count。 首先,计算块号blockno = offset / su,表示数据所在的分片号。 然后,计算条带号stripeno = blockno / stripe_count,表示数据所在的条带号。 接着,计算条带内偏移stripepos = blockno % stripe_count,表示数据在条带内的偏移位置。 接下来,计算对象集号objectsetno = stripeno / stripes_per_object,表示数据所在的对象集号。 最后,计算对象号objectno = objectsetno * stripe_count + stripepos,表示数据所在的对象号。 通过以上计算,可以确定数据在Ceph中的具体位置,从而完成文件读取操作。 需要注意的是,以上分析是基于Ceph版本10.2.2(jewel)进行的,尽管版本跨度较大,但是该部分代码在12.2.10(luminous)版本中仍然比较稳定,基本的框架没有发生变化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值