前言
Ceph新的存储引擎BlueStore已成为默认的存储引擎,抛弃了对传统文件系统的依赖,直接管理裸设备,通过Libaio的方式进行读写。抽象出了BlockDevice基类,提供统一的操作接口,后端对应不同的设备类型的实现(Kernel、NVME、NVRAM)等。除此之外,还引入了支持NVME的spdk,完全通过用户态操作NVME磁盘,提升IOPS缩短延迟。目前Ceph进一步的工作计划是基于SeaStore(基于seastar的框架)来重构OSD,相信性能会有质的飞跃。
数据结构
目前线上环境大多数还是使用HDD和Sata SSD,其派生的类为KernelDevice:
class KernelDevice : public BlockDevice {
// 裸设备以direct、buffered两种方式打开的fd
int fd_direct, fd_buffered;
// 设备总大小
uint64_t size;
// 块大小
uint64_t block_size;
// 设备路径
std::string path;
// 是否启用Libaio
bool aio, dio;
// interval_set是offset+length
// discard_queued 存放需要做Discard的Extent。
interval_set<uint64_t> discard_queued;
// discard_finishing 和 discard_queued 交换值,存放完成Discard的Extent
interval_set<uint64_t> discard_finishing;
// Libaio线程,收割完成的事件
struct AioCompletionThread : public Thread {
KernelDevice *bdev;
explicit AioCompletionThread(KernelDevice *b) : bdev(b) {}
void *entry() override {
bdev->_aio_thread();
return NULL;
}
} aio_thread;
// Discard线程,用于SSD的Trim
struct DiscardThread : public Thread {
KernelDevice *bdev;
explicit DiscardThread(KernelDevice *b) : bdev(b) {}
void *entry() override {
bdev->_discard_thread();
return NULL;
}
} discard_thread;
// 同步IO
int read(uint64_t off, uint64_t len, bufferlist *pbl, IOContext *ioc,
bool buffered) override;
int write(uint64_t off, bufferlist &bl, bool buffered) override;
// 异步IO
int aio_read(uint64_t