这系列文章主要是讲key-value结构的存储引擎,比如bitcask、sstable、LSM-tree等。不涉及内存型的key-value,比如redis。
一、数据写入与查找
对于数据写入磁盘,最简单最快的方式就是顺序写入磁盘,用简单追加日志文件的方式(Append),就达到了性能的最高效。假设我们把key-value在文件中的offset也记录下来,那么我们就能从磁盘中查找到这对key-value。
二、数据查找的速度
假设我们先不考虑key-value的更新,数据写完磁盘后,用哈希表的形式把key-value的offset放到内存,大家都知道哈希表(hash map)的查找时间复杂度是O(1),这时只需要一次磁盘寻址,就可以把value从磁盘加载到内存。如果那部分数据文件已经在文件系统缓存中,则读取根本不需要任何的磁盘I/O。结构如下图:
三、如何解决key更新的问题
上面已经讲过,key-value用追加日志文件的方式写入,当更新一对key-value时,就会追加写入一对新的key-value,而旧版的key-value不会被覆盖。如何解决读到最新的数据?这个也很好解决,只要保证读取时,从最新写入的文件偏移量中读取即可。但是同样的key,更新值使用追加的方式,又会带来新的问题(假设key是电影名,value是播放次数,100万次播放,就会产生100万条记录,其中只