“What I cannot create, I do not understand.” – Richard Feynman I’m building a clone of sqlite from scratch in C in order to understand, and I’m going to document my process as I go.
译注:cstsck在github维护了一个简单的、类似SQLite的数据库实现,通过这个简单的项目,可以很好的理解数据库是如何运行的,实现教程原文是英文,共有13篇,这里翻译过来以飨读者。原文标题:Let's Build a Simple Database,本文是第一篇
Part 1 介绍&设置REPL
作为一名开发人员,在工作中我每天都使用关系型数据库。但是对我来说,它们是一个黑盒。我有一些问题:
-
数据存储使用什么格式?(在内存与磁盘中)
-
数据什么时候从内存转移到磁盘?
-
为什么每张表只能有一个主键?
-
事务回滚是怎么工作的?
-
索引是什么格式的?
-
全表扫描时什么时候发生,如何发生的?
-
预处理语句(prepared statement)是使用什么格式存储的?
换句话说,数据库是怎么工作的?
为了弄清楚这些,我从头写了一个数据库。它是模仿SQLite实现的,因为SQLite设计小巧,并且相比于MySQL和PostgreSQL,它的功能相对要少很多,所以我希望能更容易的理解它。在实现上,整个数据库都存储在一个数据文件中。
SQLite
在SQLite的网站上,有很多SQLite的内部文档 (https://www.sqlite.org/arch.html) 。另外我还拷贝了文档(SQLite Database System: Design and Implementation.)的一个副本 (https://play.google.com/store/book s/details?id=9Z6IQQnX1JEC)
SQLite architecture
(https://www.sqlite.org/zipvfs/doc/trunk/www/howitworks.wiki)
一个查询通过组件链来获取数据或者修改数据。前端如下组件:
-
分词器(tokenizer)
-
解析器(parser)
-
代码生成器(code generator)
前端的输入是SQL语句。输出则是SQLite的虚拟机字节码(vi