索引面试点

最新推荐文章于 2023-05-09 21:25:39 发布

liuliang514218119

最新推荐文章于 2023-05-09 21:25:39 发布

阅读量106

点赞数

文章标签：面试职场和发展

本文链接：https://blog.csdn.net/liuliang514218119/article/details/123128311

版权

回顾一下2-3树的定义
每个节点可以存放一个元素也可以存放两个元素
存放一个元素的叫2-节点，存放3个元素的叫3-节点
2-节点，含有一个元素和两个子树（左右子树），左子树所有元素的值均小于它父节点，右子树所有元素的值均大于它父节点
3-节点，含有两个元素和三个子树（左中右子树），左子树所有元素的值均小于它父节点，中子树所有元素的值都位于父节点两个元素之间，右子树所有元素的值均大于它父节点

右图是一棵2-3树：

B树的定义
1.定义任意非叶子结点最多只有M个儿子；且M>2；
2.根结点的儿子数为[2, M]；
3.除根结点以外的非叶子结点的儿子数为[M/2, M]；
4.每个结点存放至少M/2-1<=k<=M-1个关键字
5.非叶子结点的关键字个数=指向儿子的指针个数-1；
6.非叶子结点的关键字：K[i] < K[i+1]；
7.非叶子结点的指针：P[1], P[2], …, P[M]；其中P[1]指向关键字小于K[1]的子树，P[M]指向关键字大于K[M-1]的子树，其它P[i]指向关键字属于(K[i-1], K[i])的子树；
8.所有叶子结点位于同一层；

B+树的定义
B+树是B-树的变体，也是一种多路搜索树：
1.其定义基本与B-树同，除了：
2.非叶子结点的子树指针与关键字个数相同；
3.非叶子结点的子树指针P[i]，指向关键字值属于[K[i], K[i+1])的子树（B-树是开区间）；
5.为所有叶子结点增加一个链指针；
6.所有关键字都在叶子结点出现；
如：（M=3）
7.叶子节点有指针指向下一个叶子节点；形成了一个有序链表

哈希表
哈希表=数组+链表

它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表(哈希表)

图里数据给16取余

哈希冲突：两个不同数据通过散列函数计算出来的位置一样

O(1)~O(N)

1、什么是索引，都有哪些类型
2、索引采用的什么数据结构
索引的作用相当于图书的目录，可以根据目录中的页码快速找到所需的内容。
普通索引：仅加速查询
唯一索引：加速查询 + 列值唯一（可以有null）
主键索引：加速查询 + 列值唯一（不可以有null）+ 表中只有一个
联合索引：多列值组成一个索引，专门用于组合搜索
全文索引：对文本的内容进行分词，进行搜索
按数据结构分：HASH，BTREE

3、innodb为什么使用B+树，跟hash比有什么优劣
与B树比：
磁盘IO读写次数相比B树降低了
在B+树中，其非叶子的内部节点都变成了key值，因此其内部节点相对B 树更小。如果把所有同一内部节点的key存放在同一盘块中，那么盘块所能容纳的key数量也越多。一次性读内存中的需要查找的key值也就越多。相对来说IO读写次数也就降低了。
每次查询的时间复杂度是固定的
在B+树中，由于分支节点只是叶子节点的索引，所以对于任意关键字的查找都必须从根节点走到分支节点，所有关键字查询路径长度相同，每次查询的时间复杂度是固定的。但是在B树中，其分支节点上也保存有数据，对于每一个数据的查询所走的路径长度是不一样的，所以查询效率也不一样。
遍历效率更高
由于B+树的数据都存储在叶子节点上，分支节点均为索引，方便扫库，只需扫一遍叶子即可。但是B树在分支节点上都保存着数据，要找到具体的顺序数据，需要执行一次中序遍历来查找。所以B+树更加适合范围查询的情况，在解决磁盘IO性能的同时解决了B树元素遍历效率低下的问题。

3、与hash比
在查询速度上，如果是等值查询，那么Hash索引明显有绝对优势，因为只需要经过一次 Hash 算法即可找到相应的键值，复杂度为O(1)；如果键值不是唯一(或存在Hash冲突)，就需要先找到该键所在位置，然后再根据链表往后扫描，直到找到相应的数据，这时候复杂度会变成O(n)，降低了Hash索引的查找效率。所以，Hash 索引通常不会用到重复值多的列上，比如列为性别、年龄的情况等（当然B+tree索引也不适合这种离散型低的字段上）；
Hash 索引是无序的，如果是范围查询检索，这时候 Hash 索引就无法起到作用，因为即使原先是有序的键值，经过 Hash 算法后，也会变成不连续的了。
①、Hash 索引只支持等值比较查询、无法索成范围查询检索，B+tree索引的叶子节点形成有序链表，便于范围查询。
②、Hash 索引无法做 like‘xxx%’ 这样的部分模糊查询，因为需要对完整 key 做 Hash 计算，定位bucket。而 B+tree 索引具有最左前缀匹配，可以进行部分模糊查询。
③、Hash索引中存放的是经过Hash计算之后的Hash值，而且Hash值的大小关系并不一定和Hash运算前的键值完全一样，所以数据库无法利用索引的数据来避免任何排序运算。B+tree 索引的叶子节点形成有序链表，可用于排序。
Hash 索引不支持多列联合索引，对于联合索引来说，Hash 索引在计算 Hash 值的时候是将索引键合并后再一起计算 Hash 值，不会针对每个索引单独计算 Hash 值。因此如果用到联合索引的一个或者几个索引时，联合索引无法被利用
因为存在哈希碰撞问题，在有大量重复键值情况下，哈希索引的效率极低。B+tree 所有查询都要找到叶子节点，性能稳定

4、聚簇索引和非聚簇索引在查询中有什么区别
聚簇索引就是按照每张表的主键构造一颗B+树，同时叶子节点中存放的就是整张表的行记录数据，也将聚集索引的叶子节点称为数据页。这个特性决定了索引组织表中数据也是索引的一部分，每张表只能拥有一个聚簇索引。 Innodb通过主键聚集数据，如果没有定义主键，innodb会选择非空的唯一索引代替。如果没有这样的索引，innodb会隐式的定义一个主键来作为聚簇索引。
非聚簇索引的叶子节点保存的是数据的地址(innodb辅助索引村的是聚簇索引键)
查询的时候，非聚簇索引拿到叶子上的地址后取出数据，聚簇索引直接拿叶子上的数据

5、创建索引时考虑哪些因素、联合索引的说明
经常where和order by的字段加上索引
索引并不是越多越好，索引会影响插入速度(需要更新索引树)
尽量选择区分度高的列作为索引，区分度的公式是count(distinct col)/count(*)，表示字段不重复的比例，比例越大我们扫描的记录数越少，唯一键的区分度是1
使用联合索引替代多个索引列
建立联合索引的列顺序按散列度排序

索引最左原则
1、mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配，比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)顺序的索引，d是用不到索引的，如果建立(a,b,d,c)的索引则都可以用到，a,b,d的顺序可以任意调整。
2、=和in可以乱序，比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意顺序，mysql的查询优化器会帮你优化成索引可以识别的形式。
3、索引列不能参与计算，保持列“干净”，比如from_unixtime(create_time) = ’2014-05-29’就不能使用到索引，原因很简单，b+树中存的都是数据表中的字段值，但进行检索时，需要把所有元素都应用函数才能比较，显然成本太大。所以语句应该写成create_time = unix_timestamp(’2014-05-29’)。
4、尽量的扩展索引，不要新建索引。比如表中已经有a的索引，现在要加(a,b)的索引，那么只需要修改原来的索引即可。

6、查看索引是否生效
sql: explain select * from article where id =1;

table：顾名思义，显示这一行的数据是关于哪张表的；
type：这是重要的列，显示连接使用了何种类型。从最好到最差的连接类型为：const、eq_reg、ref、range、indexhe和ALL；
possible_keys：显示可能应用在这张表中的索引。如果为空，没有可能的索引。可以为相关的域从where语句中选择一个合适的语句；
partitions:匹配的分区
key：实际使用的索引。如果为NULL，则没有使用索引。很少的情况下，MySQL会选择优化不足的索引。这种情况下，可以在Select语句中使用USE INDEX（indexname）来强制使用一个索引或者用IGNORE INDEX（indexname）来强制MySQL忽略索引；
key_len：使用的索引的长度。在不损失精确性的情况下，长度越短越好；
ref：显示索引的哪一列被使用了，如果可能的话，是一个常数；
rows：MySQL认为必须检查的用来返回请求数据的行数；
具体的各个列所能表示的值以及含义可以参考MySQL官方文档介绍，地址：https://dev.mysql.com/doc/refman/5.7/en/explain-output.html

7、什么情况下建立了索引却没有走索引
where 子句中使用 != 或 <> 操作符，引擎将放弃使用索引而进行全表扫描。
对于多列索引，参考最左原则
如果列类型是字符串，那一定要在条件中将数据使用引号引用起来，否则不会使用索引。
like的模糊查询以 % 开头，索引失效。
在 where 子句中的 “=” 左边进行函数、算术运算或其他表达式运算，导致系统将可能无法正确使用索引。
如果or连接的所有条件字段有一个条件没有建立索引，那么就会走全表扫描
where后面使用not in不走索引；in是走索引的
where条件使用is not null时不走索引；is null是走索引的。

liuliang514218119

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
索引面试点

回顾一下2-3树的定义每个节点可以存放一个元素也可以存放两个元素存放一个元素的叫2-节点，存放3个元素的叫3-节点2-节点，含有一个元素和两个子树（左右子树），左子树所有元素的值均小于它父节点，右子树所有元素的值均大于它父节点3-节点，含有两个元素和三个子树（左中右子树），左子树所有元素的值均小于它父节点，中子树所有元素的值都位于父节点两个元素之间，右子树所有元素的值均大于它父节点右图是一棵2-3树：B树的定义1.定义任意非叶子结点最多只有M个儿子；且M>2；2.根结点的儿子数为[2,
复制链接

扫一扫