数据库
索引
1. 什么是索引?为什么要用索引?
对于一个表如果没有索引,那么查询这个表中的一条数据,需要顺序查找一条一条对比,数据库存储的数据是在外存中的,并且是以块为存储单位的,那么可能需要依次访问每个数据块,指针的寻址等操作极费时间,使得查询效率差;索引是指对字段进行排序,并建立类似b+树这样的数据结构来增快查询效率,索引的原理可以参照b+树。
2. 聚集索引和非聚集索引
聚集索引一个表只有一个,一般会用主键作为聚集索引,数据一般是表中记录。
非聚集索引一个表可以有多个,最关键的一点数据一般是聚集索引的关键字,非聚集索引包括唯一索引、普通索引等。
如下图1聚集索引的查找,下图2非聚集索引的查找。可以看到非聚集索引的查找也依赖聚集索引,但也有一种非主流的方法可以不经过聚集索引。例如创建name和age的复合索引,如果查询的是select age from user where name = ‘a’这样的查询就在非聚集索引中直接查询出来。
3. 索引优缺点?什么时候用/不用索引?
优点:增快查询。
缺点:占用磁盘空间(索引也保存在外存中)、对于增删改需要改变索引。
对于需要经常改动的数据不适合建立索引;对于重复数据较多的数据(例如性别)不适合建立索引;对于查询中很少使用的字段不适合建立索引;对于内容很大、占用空间大的字段不适合建立索引。
4. 主键、唯一索引、聚集索引
数据库在创建主键的时候会自动增加一个唯一索引,而如果这个表还没有聚集索引那么还会创建唯一的聚集索引。
二叉查找树、平衡二叉树、b树、b+树
1. 二叉查找树
最大的特点就是左子节点<根节点<右子节点。只要符合这个特性的就是二叉查找树,但是二叉查找树实际性能并不好,如果节点向一边倾斜实际的查找效果差。
2. 平衡二叉树
就是在二叉查找树的基础上并增加一个条件-子树高度差不超过1,用这个条件保证了二叉树的平衡性,也保证了查询效率。但在插入删除节点的时候可能会造成不平衡的情况,使其不满足平衡的条件,这时候就需要对二叉树进行调整,调整情况分为LL,LR,RL,RR,分别进行不同的旋转调整。
上面两个都算是内存中的查找,b树和b+树是外存的查找,对于外存中的数据存储是以块作为单位的,从外存中读入数据也是以块为单位。
3. B树
每个节点包含数据、指针、关键字三个部分,每个节点对应着一个外存中的数据块,其中数据是指真实需要的数据,指针是指向子节点的指针,关键字是查找对象的比较目标。需要注意的是每个节点查找都需要读入内存,需要一次io操作,然后对于读入内存的数据再进行内存中的查找方法,例如顺序查找或二分查找。B树的结构如下图所示。
对于查找关键字29,需要进行三次b树的查找(io操作),分别是磁盘块1,磁盘块3,磁盘块8;然后还有对每个磁盘块的内存查找。
4. B+树
b+树是在b树的基础上改进,更适合外存查询。B树中每个节点保存了数据、关键字和指针,当数据较大时每个节点能保存的关键字很少,整个结构也会变得更庞大,查询效率不高,为此b+树中只在叶子节点保存了数据,非叶子节点都只包含关键字和指针,这种方式使得每个非叶子节点能包含更多的关键字信息,减少io次数。