Introduction
因为BlueStore采用裸设备,所以需要自己管理磁盘空间的分配和回收。如果以block表示磁盘的最小存储单位(Ceph中默认为4k),一个block的状态可以为使用和空闲两种状态,实现中只需要记录一种状态的block,就可以推导出另一种状态的block。Ceph采用记录空闲状态的block,主要原因有二,一是因为在回收空间的时候,方便空闲空间的合并,二是因为已分配的空间在object的元数据Onode中会有记录。
管理空闲空间的类为FreelistManager,最开始有extent和bitmap两种实现,现在已经默认为bitmap实现,并将extent的实现废弃。空闲空间需要持久化到磁盘,并且在运行过程中通过事务更新,很自然的方式可以用k/v存储,将block按一定数量组成段,每个段对应一个k/v键值对,key为第一个block在磁盘物理地址空间的offset,value为段内每个block的状态,即由0/1组成的位图,0为空闲,1为使用,这样可以通过与1进行异或运算,将分配和回收空间两种操作统一起来。
Data Structure
class BitmapFreelistManager : public FreelistManager {
std::string meta_prefix, bitmap_prefix; // rocksdb中key的前缀,meta为B,bitmap为b
KeyValueDB *kvdb; // kvdb指针
ceph::shared_ptr<KeyValueDB::MergeOperator> merge_op;