数据库索引随笔

大家都知道数据的查找中索引技术是很关键的,快速定位数据使用,目前关系型数据库中使用最多的是B树和B+树,NOSQL的数据库使用最多的是LSM 日志合并树,两者强调的使用场景不同,B树B+树长处是快速查找,索引结构是强调开始定位数据,建立索引的目的是快速读,代价就是建立索引费事,LSM目的是为了快速写,建立索引不能太费事,简单建立,代价就是读取数据费事。如果数据都在内存中,没有这样的问题,如果是数据在外存上,这才是问题,核心是减少IO的调用。

减少IO的调用,随机写改为追加写,延迟写(加大BUFFER,BUFFER越大,填满的时间越长),有序写(随机写通过延迟写,在BUFFER中对数据进行重整,使数据有序)。

1、数据库索引就是排序,比大小,只说对了一半,通过比大小的方式将数据排好,通过折半查找的方式,可以有较好的查找性能,对应的关系是先对应大范围的查找,不断缩小范围,直到最终定位。

2、HASH散列的方式,就不是比大小了,而是通过散列算法来确定对应关系,很多人把HASH CODE和散列混在一起,其实是不对的,HASH CODE其实可以理解为数据特征值提取,将比较大的数据通过算法获得定长的特征值,从某种意义上说是数据的信息压缩表示,常用的MURMUR,再一个就是散列算法,如除余法,将HASHCODE 对应到对应表地址上,对应到数组下标,建立对应关系, HASHCODE有重复的可能,散列到相同数组下标也有重复的问题,后一个问题想对更难处理,红黑树,SKIPLIST等方法都是解决的方法。

3、树的方式来进行索引,树的查找不完全是比大小的方式,虽然也有,以比大小的方式的有二叉树,平衡树,B+树都是比大小建立查询路径,字典树就不是比大小了,还是按字符串组合路径来进行查询路径。以质数分辨原理建立的HASH TREE则是数的分解和取余两个操作,通过此规则建立的HASH TREE。

4、还有一个HASH TREE就是 MERKLE TREE(网上有些文章吧HASH TREE等同于MERKLE TREE应该是不准确的), 是两两HASHCODE在进行HASH形成新的HASHCODE, 按层次形成的,是数据完备性的检查机制之一,可以定位数据是否被修改,应用场景主要是P2P数据传输同步,数据纠错,区块链上为防数据篡改也使用MERKLE TREE来进行数据保护。

5、以树作为数据结构的索引,特别是前缀树,后缀树,都是以路径作为索引对象的方式来组织数据;B树B+树也是按查找路径来进行,只是这个路径是按大小的,所以B树B+树更强调的是数据大小的有序性,这个是建立查找路径的前提。LSM 日志合并树,不能是严格意义上的树,而是一种缓存的层次关系,查找数据比大小加遍历,为加快遍历,增加MIN, MAX判断,BLOOMFILTER,合并小的排序到大的排序。

中午休息先写到这里。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值