浅析日志结构的存储引擎(1)-bitcask

本文介绍了Bitcask这种日志结构的存储引擎,重点讨论了其数据写入与查找的高效性,以及如何通过哈希表加速查找。同时,针对key更新和磁盘空间消耗问题,提出了文件段分块和后台合并压缩的解决方案。然而,Bitcask存在内存需求高、不支持区间查询和进程重启后索引重建的局限性。
摘要由CSDN通过智能技术生成

 

这系列文章主要是讲key-value结构的存储引擎,比如bitcask、sstable、LSM-tree等。不涉及内存型的key-value,比如redis。

 

一、数据写入与查找

对于数据写入磁盘,最简单最快的方式就是顺序写入磁盘,用简单追加日志文件的方式(Append),就达到了性能的最高效。假设我们把key-value在文件中的offset也记录下来,那么我们就能从磁盘中查找到这对key-value。

二、数据查找的速度

假设我们先不考虑key-value的更新,数据写完磁盘后,用哈希表的形式把key-value的offset放到内存,大家都知道哈希表(hash map)的查找时间复杂度是O(1),这时只需要一次磁盘寻址,就可以把value从磁盘加载到内存。如果那部分数据文件已经在文件系统缓存中,则读取根本不需要任何的磁盘I/O。结构如下图:

三、如何解决key更新的问题

上面已经讲过,key-value用追加日志文件的方式写入,当更新一对key-value时,就会追加写入一对新的key-value,而旧版的key-value不会被覆盖。如何解决读到最新的数据?这个也很好解决,只要保证读取时,从最新写入的文件偏移量中读取即可。但是同样的key,更新值使用追加的方式,又会带来新的问题(假设key是电影名,value是播放次数,100万次播放,就会产生100万条记录,其中只

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值