第二章关注的是将数据录入数据库系统的格式,以及检索出来的机制,这章关注同样的问题,但是是从数据库的视角来看:数据库如何存储我们的数据,以及如何检索出我们需要的数据。
书中开篇列举了一个 使用bash 命令制作的简单数据库的例子:
db_set(){
echo "$1,$2" >> database
}
db_get () {
grep "^$1," database | sed -e "s/^$1,//" | tail -n 1
}
这个数据库非常简单,是一个仅追加的日志文件,即写入性能非常好;但是由于数据库文件是个仅追加log 文件,所以更新数据也是添加记录,那么要查询到某条数据最新的值,则需要遍历整个文件找到最后的这条记录。
为了高效的查找数据库中的值,则需要一个数据结构:索引(Index)。
索引是从主数据库中衍生的附加结构,索引只会影响查询性能,但是更新这些索引却需要额外的开销。
索引
哈希索引
原理就是 KV 存储,将 key 的hash 值存储在内存中,value 指明值在数据文件中的位置。这种操作的前提是所有的key 都可以存储在内存中。作者还提到了一种场景,比如视频的 URL 和其被点击的次数,key 不经常发生变化,值的写入次数很频繁。提到的数据库Bitcask 存储模型