Mysql官方原话: 索引是帮助mysql高效获取数据的排好序的数据结构。
数据结构网站:www.cs.usfca.edu
1、索引数据结构:红黑树、Hash、B+树
索引数据结构:
- 二叉树
- 弊端:出现数据堆叠树的单边,二叉树退化成单链表。
- 红黑树
- 概念:也叫二叉平衡树,当树的一侧过于冗长时,会自动平衡;
- 弊端:当数据量较为庞大时,数据的插入速度较慢,磁盘读写IO次数较大。
- Hash
- 概念:散存结构,零散无规律存放在磁盘中。
- 弊端:但使用范围性查找(大于 小于)时,性能较低。
- B-Tree
- 概念:
- 叶节点具有相同的深度,叶节点之间没有指针相连
- 所有索引元素不重复
- 节点中的元素索引从左到右递增排序
- 概念:
- B+Tree
- 非叶子节点不存储data,只存储索引(冗余),可以放更多的索引
- 叶子节点包含所有索引字段
- 叶子节点用指针连接,提高区间访问的性能
2、索引概念、数据库存储引擎
Mysql索引:
第一层索引为常驻索引,直接储存在内存中(RAM)
查询索引数据单个节点的数据大小sql:
show global status like ‘Innodb_page_size’;
Mysql存储引擎:
MyISAM存储引擎(非聚集索引)
表索引和表数据是分开储存的:存储索引的文件是MYI,存储数据的文件是MYD。
在索引叶子节点上,存储索引和数据对应的物理地址,又叫非聚集索引。
InnoDB索引实现(聚集索引):
-
表数据文件本身是B+Tree组织的一个索引结构文件(索引和数据在同一个文件)
-
聚集索引-叶节点包含了完整的数据记录
-
InnoDB表必须有主键,并且推荐使用整型的自增主键
(因为索引结构保持二叉树左侧比右侧小的特性,使用整型自增可以方便插入和查找数据) -
非主键索引结构,叶子节点存储的是主键值(一致性和节省存储空间)
若InnoDB存储引擎的表没有创建主键,底层会在表中选一列作为主键;若找不到合适的列(唯一),则会创建一个隐藏列作为主键。
3、联合索引的底层数据结构、最左前缀优化原则
联合索引(复合索引):
底层存储结构:多个字段时,先使用第一个字段进行排序,若第一个字段相同无法排序时,使用第二个字段以此类推,实现每一层级从左到右递增的B+TREE原则。
最左前缀优化是针对联合索引使用的:
查询时:如何条件中没有使用复合索引的第一个字段则不会使用索引,因为看第二个或第三个字段的话,整个表来说,他是无序的,无法使用索引查找的。
如上图:若查询条件没有使用“10002”则,不会使用联合索引。
4、Mysql索引优化军规
摘抄网络资料~~~
(一)核心军规
(1)不在数据库做运算:cpu计算务必移至业务层
(2)控制单表数据量:单表记录控制在1000w
(3)控制列数量:字段数控制在20以内
(4)平衡范式与冗余:为提高效率牺牲范式设计,冗余数据
(5)拒绝3B:拒绝大sql,大事物,大批量
(二)字段类军规
(6)用好数值类型
tinyint(1Byte)
smallint(2Byte)
mediumint(3Byte)
int(4Byte)
bigint(8Byte)
bad case:int(1)/int(11)
(7)字符转化为数字
用int而不是char(15)存储ip
(8)优先使用enum或set
例如:sex
enum (‘F’, ‘M’)
(9)避免使用NULL字段
NULL字段很难查询优化
NULL字段的索引需要额外空间
NULL字段的复合索引无效
bad case:
name
char(32) default null
age
int not null
good case:
age
int not null default 0
(10)少用text/blob
varchar的性能会比text高很多
实在避免不了blob,请拆表
(11)不在数据库里存图片:是否需要解释?
(三)索引类军规
(12)谨慎合理使用索引
改善查询、减慢更新
索引一定不是越多越好(能不加就不加,要加的一定得加)
覆盖记录条数过多不适合建索引,例如“性别”
(13)字符字段必须建前缀索引
(14)不在索引做列运算
bad case:
select id where age +1 = 10;
(15)innodb主键推荐使用自增列(SK:博主不认可)
主键建立聚簇索引
主键不应该被修改
字符串不应该做主键
如果不指定主键,innodb会使用唯一且非空值索引代替
(16)不用外键
请由程序保证约束
(四)sql类军规
(17)sql语句尽可能简单
一条sql只能在一个cpu运算
大语句拆小语句,减少锁时间
一条大sql可以堵死整个库
(18)简单的事务
事务时间尽可能短
bad case:
上传图片事务
(19)避免使用trig/func
触发器、函数不用
客户端程序取而代之
(20)不用select *
消耗cpu,io,内存,带宽
这种程序不具有扩展性
(21)OR改写为IN()
or的效率是n级别
in的消息时log(n)级别
in的个数建议控制在200以内
select id from t where phone=’159′ or phone=’136′;
=>
select id from t where phone in (’159′, ’136′);
(22)OR改写为UNION
mysql的索引合并很弱智
select id from t where phone = ’159′ or name = ‘john’;
=>
select id from t where phone=’159′
union
select id from t where name=’jonh’
(23)避免负向%
(24)慎用count(*)
(25)同上
(26)limit高效分页
limit越大,效率越低
select id from t limit 10000, 10;
=>
select id from t where id > 10000 limit 10;
(27)使用union all替代union
union有去重开销
(28)少用连接join
(29)使用group by
分组
自动排序
(30)请使用同类型比较
(31)使用load data导数据
load data比insert快约20倍;
(32)打散批量更新
(33)新能分析工具
show profile;
mysqlsla;
mysqldumpslow;
explain;
show slow log;
show processlist;
show query_response_time(percona)