今天又学了一部分知识,做个笔记。
RT先看一下数据库表的空间回收。这里只说InnoDB,InnoDB分两部分,表结构定义和数据。MySQL8.0之前表结构在.frm的文件中,8.0以后的版本允许放在系统表中,因为表结构定义占用空间其实很小。接下来重点看表数据。
参数 innodb_file_per_table
数据表可以存在共享表空间,也可以存单独的文件,由innodb_file_per_table这个参数控制,参数的值有两种:
- OFF:表示表数据存放在共享表空间,和数据字典放在一起
- ON:表示表数据存储再.ibd后缀的文件中
MySQL5.6.6版本以后默认设置为ON。不过建议无论在哪里都设置为ON,因为:
- 单独存一个文件更容易管理
- 不需要这个表的时候可以通过drop table命令删除这个文件,而如果是共享表空间里面就算删掉表,空间依然不会回收。
设置为ON后,drop table可以删除表文件,但是业务中很多情况下我们只是删除数据的一部分行,用delete,这样就会出现我们要讨论的问题:数据删除了,但空间没有被回收。
数据删除流程
众所周知,InnoDB中的数据都是B+tree的方式组织的,如图:
![图1](https://i-blog.csdnimg.cn/blog_migrate/4434625bd09e51c9e751aa7cb07c5e17.png)
假设要删除R4这个纪录,,InnoDB只会将该纪录标记为删除,而不是直接将它清除,方便以后在300-600之间出入纪录的时候复用这个位置。所以磁盘空间并没有变化。
又众所周知,InnoDB上的数据都是按页存储的,如果我们直接删除整页数据会出现什么情况?
答案是:整页数据都会被标记,可复用。这里要说但是,但是数据页的复用和部分纪录的复用是不同的。
如果R4被删除后插入一个id=400的纪录刚刚好被复用,但是如果不是呢?很明显这个位置不会被复用,如果一直不被复用呢?那磁盘就产生了碎片,造成空间浪费。
如果PageA被删除后表姐可复用,那么随表插入一条数据id=50就可复用了。系统会把利用率较小的相邻两个页的数据合并到一个页里面,将另一个页标记为可复用。
我们删除数据也不可能那么精确的删除一页数据,如果删除整张表的数据呢?那所有的数据页都会标记为可复用,但并不会回收磁盘空间。现在明白了,delete命令只是将纪录标记为可复用,而不是真正的删除,因此文件大小是不会变的。
事实上不但是delete纪录会产生碎片,insert纪录也会产生碎片。
如果是按递增的顺序插入数据,索引的位置是紧凑的,但是如果是随机插入数据,情况就有些乱了,会造成页的分裂,少量的数据被分裂到多个页中,造成磁盘碎片。更新一个索引的值,可以看成是删除一个值重新插入另一个值,这样也会产生碎片,当然我们应该刽去修改主键索引的值,更新的一般都是二级索引的值。
那么,这个问题该如何解决呢?
重建表
既然drop table命令可以回收表空间,那我们是不是可以:
- 重新创建一张结构相同的临时表
- 将旧表的数据规整的复制到临时表里面去
- 将旧表和临时表的表名交换
- drop掉临时表
![图2](https://i-blog.csdnimg.cn/blog_migrate/c5b67ed875bafd01e481f5236f53c0d4.png)
可以用alter table A engine=InnoDB命令来重建表。命令执行后MySQL会自动帮你完成上述步骤。显然这个过程最耗时的就是将表中的数据规整的复制到临时表中去,而且复制的过程中要freeze整张表,这个时候要插入新的数据就会丢失。
MySQL 5.6 版本开始引入的 Online DDL,对这个操作流程做了优化。
- 创建一个临时表,扫描表A中的所有数据页
- 用A表中的数据页生成B+树存临时文件中
- 生成临时文件的过程中对表A产生的修改都存到一个日志文件中(row log)有点像redo log
- 临时文件生生后将日志文件中的操作同步到临时文件中,这样生成的临时文件的逻辑就和A表中的逻辑一致
![图3](https://i-blog.csdnimg.cn/blog_migrate/6b09186acd7c552e62f3c5790857f749.png)
这也就是 Online DDL 名字的来源。对于很大的表进行DDL操作的时候肯定会很耗CPU和IO资源。如果是线上,要控制操作时间,可以用github上的开源的gh-ost来做。
Online 和 inplace
图2中旧表中导出的是临时表tmp_table 是在MySQLserver层创建的图3中,导出的是临时文件temp_file是在InnoDB中完成的,对于server来说并没有影响,没有临时表,这就是inplace。
图3的做法是 alter table t engine=InnoDB
alter table t engine=innodb,ALGORITHM=inplace;
图2的做法是,用法是:
alter table t engine=innodb,ALGORITHM=copy;