场景:当产品中需要对用户进行过滤的时候,需要对用户添加白名单。如果一次需要导入千万级的用户量,普通的SQL插入/更新耗时长久,执行效率低下。为加快数据库的插入效率,需要对程序和数据库设置进行优化。
1. 为什么批量插入比逐条插入快
一条SQL的执行过程可参见:MySQL语句执行过程_西木风落-CSDN博客
数据库的一个插入动作,包含了连接,传输,执行,提交/回滚等的动作。
- 网络传输方面来说,批量插入多条数据,更省空间。
- 连接数量来说,批量插入使用一个连接,在使用数据库连接池情况下,逐个插入可能会占用多个连接。
- 通过合并SQL语句,同时也能减少SQL语句解析的次数;
- 从事务方面来说,逐条插入每次都会新建一个事务,批量插入只会使用一个事务。
- 从日志方面来说,由于逐条插入每次都会插入binlog事务日志,合并后日志量减少了,降低日志刷盘的数据量和频率,从而提高效率。
- 如果存在主键索引,逐条多线程插入抢锁竞争激烈;
批量插入比逐条插入并不一定快,比如插入的数据是业务表,每行的数据量较大,且该表访问频繁,插入1条的时候可能不会锁表,而插入10000行的时候,会遇到锁表的情况。如果并发插入,甚至发生死锁。
2. 插入语句优化
2.1 合并sql插入
INSERT INTO `tb` (`id`, `name`) VALUES ('1', 'lianggzone');
INSERT INTO `tb` (`id`, `name`) VALUES ('2', 'lianggzone');-- 转换成
INSERT INTO `tb` (`id`, `name`) VALUES ('1', 'lianggzone'), ('2', 'lianggzone');
2.2 在一个事务中插入
start transaction;
INSERT INTO `tb` (`id`, `name`) VALUES ('1', 'lianggzone'), ('2', 'lianggzone');INSERT INTO `tb` (`id`, `name`) VALUES ('3', 'lianggzone'), ('4', 'lianggzone');
commit;
2.3 insert into 改成insert delayed into
INSERT DELAYED INTO,是客户端提交数据给MySQL,MySQL返回OK状态给客户端,这时并不是已经将数据插入表,而是存储在内存里面等待排队。当mysql有空余时,再插入。这样的好处是,提高插入的速度,客户端不需要等待太长时间。坏处是,不能返回自动递增的ID,以及系统崩溃时,MySQL还没有来得及插入数据的话,这些数据将会丢失。
3. 配置优化
3.1 尽量将数据一次性写入DataFile和减少数据库的checkpoint操作
- 将 innodb_flush_log_at_trx_commit 配置设定为0;
0:表示每秒钟将日志缓存写到日志文件,但是事务提交的时候不做操作;
1:表示日志缓存每一次事务提交都写入日志文件,并且日志文件会刷新到磁盘;
2:表示日志缓存每一次事务提交都会写入日志文件,但不执行磁盘操作。
- 增大innodb_log_buffer_size:此配置项作用是设定innodb 数据库引擎写日志缓存区,增大可以减少数据库写数据文件次数。
- 增大innodb_log_file_size:此配置项作用是设定innodb 数据库引擎UNDO日志的大小,增大配置可以减少数据库checkpoint操作。
- 增大bulk_insert_buffer_size:修改Max_allowed_packet=8M(默认1M),Net_buffer_length=8k,此配置的作用是可以增大insert 语句的大小,便于批量插入。
3.2 数据库表可以先去除索引
可以先去除索引,添加完数据后再把索引加上;
3.3 注意事项
事务需要控制大小,事务太大可能会影响执行的效率。MySQL有innodb_log_buffer_size配置项,超过这个值会把innodb的数据刷到磁盘中,这时,效率会有所下降。所以比较好的做法是,在数据达到这个这个值前进行事务提交。