基本概念
1. LSN (log sequence number)
RocksDB中的每一条记录(KeyValue)都有一个LogSequenceNumber(后面统称lsn),从最初的0开始,每次写入加1。该值为逻辑量,区别于InnoDB的lsn为redo
log物理写入字节量。
这个lsn在RocksDB内部的memtable中是单调递增的,在WriteAheadLog(WAL)中以WriteBatch为单位递增(count(batch.records)为单位)。
WriteBatch是一次RocksDB::Put()的原子操作集合,不同的WriteBatch间是遵循ACID特性(要么完全成功要么完全失败,并且相互隔离),结构如下:
WriteBatch :=
sequence: fixed64
count: fixed32
data: record[count]
从RocksDB外部能看到的LSN是按WriteBatch递增的(LeaderWriter(或LastWriter)最后一次性更新),所以进行snapshot读时,使用的就是此lsn。
注意: 在WAL中每条WriteBatch的lsn并不严格满足以下公式(比如2pc情况下):
lsn(WriteBatch[n]) < lsn(WriteBatch[n+1]),可能相等
2. Snapshot
Snapshot是RocksDB的快照,实际存储的就是一个lsn.
class SnapshotImpl {
public:
// 当前的lsn
SequenceNumber number_;
private:
SnapshotImpl* prev_;
SnapshotImpl* next_;
SnapshotList* list_;
// unix时间戳
int64_t unix_time_;
// 是否属于Transaction(用于写冲突)
bool is_write_conflict_boundary_;
};
查询时如果设置了snapshot为某个lsn,
那么对于此snapshot的读来说,只能看到lsn(key)<=lsn(snapshot)的key,大于该lsn的key是不可见的。
snapshot的创建和删除都需要由一个全局的DoubleLinkList
(DBImpl::SnapshotList)管理,天然的根据创建时间(同样也是lsn大小)的关系排序,使用之后需要通过DBImpl::ReleaseSnapshot释放。snapshot还用于在RocksDB事务中实现不同的隔离级别。
3. 隔离级别
为了实现事务下的一致性非锁定读(读可以并发),不同的数据库(引擎)实现了不同的读隔离级别。SQL规范标准中定义了如下四种:
ReadUncommited
ReadCommited
RepeatableRead
Serializable
Oracle
No
Yes
No
Yes
MySQL
Yes
Yes
Yes
Yes
RocksDB
No
Yes
Yes
No
ReadUncommitted 读取未提交内容,所有事务都可以看到其他未提交事务的执行结果。存在脏读。
ReadCommitted读取已提交内容
,事务只能看见其他已经提交事务所做的改变,多次读取同一个记录可能包含其他事务已提交的更新。
RepeatableRead 可重读,确保事务读取数据时,多次操作会看到同样的数据行(InnoDB通过NextKeyLocking对btree索引加锁解决了幻读)。
Serializable串行化,强制事务之间进行排序,不会互相冲突。
大部分数据库(如MySQL
InnoDB、RocksDB),通过MVCC都可以实现上述的在非排它锁锁定情况下的多版本并发读。
RocksDB Transaction
简单的例子:
// 基本配置,事务相关操作需要TransactionDB句柄
Options options;
options.create_if_missing = true;
TransactionDBOptions txn_db_options;
TransactionDB* txn_db;
// 用支持事务的方式opendb
TransactionDB::Open(options, txn_db_options, kDBPath, &txn_db);
// 创建一个事务上下文, 类似MySQL的start transaction
Transaction* txn = txn_db->BeginTransaction(write_options);
// 直接写入新数据
txn->Put("abc", "def");
// ForU