rocksdb原理_RocksDB事务实现TransactionDB分析

最新推荐文章于 2022-11-29 20:10:45 发布

weixin_39637203

最新推荐文章于 2022-11-29 20:10:45 发布

阅读量470

点赞数

文章标签： rocksdb原理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39637203/article/details/111765516

版权

基本概念

1. LSN (log sequence number)

RocksDB中的每一条记录(KeyValue)都有一个LogSequenceNumber(后面统称lsn)，从最初的0开始，每次写入加1。该值为逻辑量，区别于InnoDB的lsn为redo

log物理写入字节量。

这个lsn在RocksDB内部的memtable中是单调递增的，在WriteAheadLog(WAL)中以WriteBatch为单位递增(count(batch.records)为单位)。

WriteBatch是一次RocksDB::Put()的原子操作集合，不同的WriteBatch间是遵循ACID特性(要么完全成功要么完全失败，并且相互隔离)，结构如下：

WriteBatch :=

sequence: fixed64

count: fixed32

data: record[count]

从RocksDB外部能看到的LSN是按WriteBatch递增的(LeaderWriter(或LastWriter)最后一次性更新)，所以进行snapshot读时，使用的就是此lsn。

注意: 在WAL中每条WriteBatch的lsn并不严格满足以下公式(比如2pc情况下):

lsn(WriteBatch[n]) < lsn(WriteBatch[n+1])，可能相等

2. Snapshot

Snapshot是RocksDB的快照，实际存储的就是一个lsn.

class SnapshotImpl {

public:

// 当前的lsn

SequenceNumber number_;

private:

SnapshotImpl* prev_;

SnapshotImpl* next_;

SnapshotList* list_;

// unix时间戳

int64_t unix_time_;

// 是否属于Transaction(用于写冲突)

bool is_write_conflict_boundary_;

};

查询时如果设置了snapshot为某个lsn,

那么对于此snapshot的读来说，只能看到lsn(key)<=lsn(snapshot)的key，大于该lsn的key是不可见的。

snapshot的创建和删除都需要由一个全局的DoubleLinkList

(DBImpl::SnapshotList)管理，天然的根据创建时间(同样也是lsn大小)的关系排序，使用之后需要通过DBImpl::ReleaseSnapshot释放。snapshot还用于在RocksDB事务中实现不同的隔离级别。

3. 隔离级别

为了实现事务下的一致性非锁定读(读可以并发)，不同的数据库(引擎)实现了不同的读隔离级别。SQL规范标准中定义了如下四种：

ReadUncommited

ReadCommited

RepeatableRead

Serializable

Oracle

No

Yes

No

Yes

MySQL

Yes

Yes

Yes

Yes

RocksDB

No

Yes

Yes

No

ReadUncommitted 读取未提交内容，所有事务都可以看到其他未提交事务的执行结果。存在脏读。

ReadCommitted读取已提交内容

，事务只能看见其他已经提交事务所做的改变，多次读取同一个记录可能包含其他事务已提交的更新。

RepeatableRead 可重读，确保事务读取数据时，多次操作会看到同样的数据行(InnoDB通过NextKeyLocking对btree索引加锁解决了幻读)。

Serializable串行化，强制事务之间进行排序，不会互相冲突。

大部分数据库(如MySQL

InnoDB、RocksDB)，通过MVCC都可以实现上述的在非排它锁锁定情况下的多版本并发读。

RocksDB Transaction

简单的例子:

// 基本配置,事务相关操作需要TransactionDB句柄

Options options;

options.create_if_missing = true;

TransactionDBOptions txn_db_options;

TransactionDB* txn_db;

// 用支持事务的方式opendb

TransactionDB::Open(options, txn_db_options, kDBPath, &txn_db);

// 创建一个事务上下文, 类似MySQL的start transaction

Transaction* txn = txn_db->BeginTransaction(write_options);

// 直接写入新数据

txn->Put("abc", "def");

// ForU

最低0.47元/天解锁文章

weixin_39637203

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
rocksdb原理_RocksDB事务实现TransactionDB分析

基本概念1. LSN (log sequence number)RocksDB中的每一条记录(KeyValue)都有一个LogSequenceNumber(后面统称lsn)，从最初的0开始，每次写入加1。该值为逻辑量，区别于InnoDB的lsn为redolog物理写入字节量。这个lsn在RocksDB内部的memtable中是单调递增的，在WriteAheadLog(WAL)中以WriteBatc...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。