数据库索引很多人都知道是加快数据查询速度的,但是对其原理却是一知半解。首先抛出问题
数据库为什么要设计索引?
图书馆存了1000W本图书,要从中找到《数据库原理》这本书,如果一本一本地查,要查到什么时候?
于是,图书管理员设计了一套规则:
(1)一楼放文学类,二楼放科技类,三楼放计算机类…
(2)计算机类,又分软件类,硬件类…
(3)软件类,又按照书名音序排序…
通过这种方式能快速找到一本书。
与之类比,数据库存储了1000W条数据,要从中找到name=”zsy”的记录,如果要一条条查,要查到什么时候?
于是,要有索引,用于提升数据库的查找速度。
哈希(hash)比树(tree)更快,索引结构为什么要设计成树型?
加速查找速度的数据结构,常见的有两类:
(1)哈希,例如HashMap,查询/插入/修改/删除的平均时间复杂度都是O(1);
(2)树,例如平衡二叉搜索树,查询/插入/修改/删除的平均时间复杂度都是O(lg(n));
可以看到,不管是读请求,还是写请求,哈希类型的索引,都要比树型的索引更快一些,那为什么,索引结构要设计成树型呢?
索引设计成树形,和SQL的需求相关。
对于这样一个单行查询的SQL需求:
select * from t where name=”zsy”;
确实是哈希索引更快,因为每次都只查询一条记录。
但是对于排序查询的SQL需求:
-
分组:group by
-
排序:order by
-
比较:<、>
-
…
哈希型的索引,时间复杂度会退化为O(n),而树型的“有序”特性,依然能够保持O(log(n)) 的高效率。