数据库索引随笔

最新推荐文章于 2022-08-23 00:06:32 发布

DQWKLC

最新推荐文章于 2022-08-23 00:06:32 发布

阅读量108

点赞数

分类专栏：系统设计文章标签：数据库

本文链接：https://blog.csdn.net/DQWKLC/article/details/115004997

版权

系统设计专栏收录该内容

34 篇文章 0 订阅

订阅专栏

大家都知道数据的查找中索引技术是很关键的，快速定位数据使用，目前关系型数据库中使用最多的是B树和B+树，NOSQL的数据库使用最多的是LSM 日志合并树，两者强调的使用场景不同，B树B+树长处是快速查找，索引结构是强调开始定位数据，建立索引的目的是快速读，代价就是建立索引费事，LSM目的是为了快速写，建立索引不能太费事，简单建立，代价就是读取数据费事。如果数据都在内存中，没有这样的问题，如果是数据在外存上，这才是问题，核心是减少IO的调用。

减少IO的调用，随机写改为追加写，延迟写（加大BUFFER，BUFFER越大，填满的时间越长），有序写（随机写通过延迟写，在BUFFER中对数据进行重整，使数据有序）。

1、数据库索引就是排序，比大小，只说对了一半，通过比大小的方式将数据排好，通过折半查找的方式，可以有较好的查找性能，对应的关系是先对应大范围的查找，不断缩小范围，直到最终定位。

2、HASH散列的方式，就不是比大小了，而是通过散列算法来确定对应关系，很多人把HASH CODE和散列混在一起，其实是不对的，HASH CODE其实可以理解为数据特征值提取，将比较大的数据通过算法获得定长的特征值，从某种意义上说是数据的信息压缩表示，常用的MURMUR，再一个就是散列算法，如除余法，将HASHCODE 对应到对应表地址上，对应到数组下标，建立对应关系， HASHCODE有重复的可能，散列到相同数组下标也有重复的问题，后一个问题想对更难处理，红黑树，SKIPLIST等方法都是解决的方法。

3、树的方式来进行索引，树的查找不完全是比大小的方式，虽然也有，以比大小的方式的有二叉树，平衡树，B+树都是比大小建立查询路径，字典树就不是比大小了，还是按字符串组合路径来进行查询路径。以质数分辨原理建立的HASH TREE则是数的分解和取余两个操作，通过此规则建立的HASH TREE。

4、还有一个HASH TREE就是 MERKLE TREE（网上有些文章吧HASH TREE等同于MERKLE TREE应该是不准确的）, 是两两HASHCODE在进行HASH形成新的HASHCODE, 按层次形成的，是数据完备性的检查机制之一，可以定位数据是否被修改，应用场景主要是P2P数据传输同步，数据纠错，区块链上为防数据篡改也使用MERKLE TREE来进行数据保护。

5、以树作为数据结构的索引，特别是前缀树，后缀树，都是以路径作为索引对象的方式来组织数据；B树B+树也是按查找路径来进行，只是这个路径是按大小的，所以B树B+树更强调的是数据大小的有序性，这个是建立查找路径的前提。LSM 日志合并树，不能是严格意义上的树，而是一种缓存的层次关系，查找数据比大小加遍历，为加快遍历，增加MIN, MAX判断，BLOOMFILTER，合并小的排序到大的排序。

中午休息先写到这里。

DQWKLC

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据库索引随笔

大家都知道数据的查找中索引技术是很关键的，快速定位数据使用，目前关系型数据库中使用最多的是B树和B+树，NOSQL的数据库使用最多的是LSM 日志合并树，两者强调的使用场景不同，B树B+树长处是快速查找，索引结构是强调开始定位数据，建立索引的目的是快速读，代价就是建立索引费事，LSM目的是为了快速写，建立索引不能太费事，简单建立，代价就是读取数据费事。如果数据都在内存中，没有这样的问题，如果是数据在外存上，这才是问题，核心是减少IO的调用。减少IO的调用，随机写改为追加写，延迟写（加大BUFFER，BU
复制链接

扫一扫