sqlite wal 分析

字节跳动技术团队

于 2022-12-30 12:00:17 发布

阅读量7.3k

点赞数 2

文章标签： sqlite 数据库

本文链接：https://blog.csdn.net/ByteDanceTech/article/details/128502500

版权

动手点关注

干货不迷路

sqlite 提供了一种 redo log 型事务实现，支持读写的并发，见 write-ahead log（https://sqlite.org/wal.html）。本文将介绍 wal 原理，并源码剖析 checkpoint 过程，同时讨论下 wal 使用中的一些注意点。由于 sqlite 的复杂性，会省略掉一些细节，重点放在核心流程和 wal 并发的实现。

1. wal 原理

1.1 redo log

sqlite wal 是一种简单的 redo log 事务实现，redo log 概念这里简述下。数据库事务需要满足满足 acid，其中原子性(a)，即一次事务内的多个修改，要么全部提交成功要么全部提交失败，不存在部分提交到 db 的情况。 redo log 的解决思路是将修改后的日志按序先写入 log 文件(wal 文件)，每个完成的事务会添加 checksum，可鉴别事务的完整性。事务写入日志文件后，即代表提交成功，读取时日志和 db 文件合并的结果构成了 db 的完整内容。同时定期 checkpoint，同步 wal 中的事务到 db 文件，使 wal 文件保持在合理的大小。日志文件持久化到磁盘后，已提交成功的事务按序 checkpoint 执行的结果都是一样的，不受 crash 和掉电的影响。

sqlite 的 wal 也是这种思路的实现，只是 sqlite 提供的是一种简化实现，同时只允许一个写者操作日志文件，日志也是 page 这种物理日志。redo log 还能将 undo log 的随机写转化为顺序写，具有更高的写入性能，这里不赘述。

想对 redo log 进一步了解，可以参考以下资料：

https://zhuanlan.zhihu.com/p/35574452

https://developer.aliyun.com/article/1009683

1.2 sqlite wal

sqlite wal 写操作不直接写入 db 主文件，而是写到“db-wal”文件（以下简称'wal'文件）的末尾。读操作时，将结合 db 主文件以及 wal 的内容返回结果。wal 模式同时具有简单的 mvvc 实现，支持文件级别的读写并发，提供了相对 delete(rollback) 模式 (undo log 事务) 更高的并发性。 具体可看图加深理解。

下图中：

pgx.y，x 表示当前 page 的 num，y 表示当前 page 的版本，每个提交的事务都保存当前修改后的 page 副本；
图中 wal 中提交了两个事务，wal 中蓝色框表示一个完整事务修改的所有 page；
wal 实际中保存的单位是 wal frame，除了修改的页面还会保存 page number checksum 等信息，这里为了突出展示了 page， 详细格式见：https://www.sqlite.org/fileformat2.html

关于写

写操作总是发生在 wal 文件上；
写操作总是追加在 wal 文件末尾，由 commit 触发；
写入 wal 文件中是原始 page 修改后的副本；
写操作对 wal 文件的访问是独占串行的；
事务写入只有成功落盘（写入磁盘)才算成功提交，checkpoint 前会调用 wal 文件的 fsync，保证日志提交持久性和一致性；
没有调用 fsync 不代表日志提交一定失败，会由文件系统定期回写；
如果 fsync 回写之前发生 crash 或系统崩溃，导致事务 2 的 pg4.2 写 wal 失败，可校验出事务 2 不完整，则 wal 中成功提交的事务只有事务 1; 如果 pg0.1 回写失败，则 wal 中没有成功提交的事务。

关于读

读与写可以并发；
每个读事务会记录 wal 文件中一个 record 点，作为它的 read mark，每个事务执行过程中 read mark 不会发生改变，新提交的事务产生的修改不会影响旧的事务。read mark 会选择事务完整提交后的位置。原始 db 文件和 wal 中 read mark 之前的记录构成了数据库的一个固定的版本记录；
读事务读一个 page 优先读 wal 文件，没有则读原始文件；
如果一个 page 在 wal 中有多个副本，读 read mark 前的最后一个；
同一个 read mark 可以被多个读事务使用。