转载自:
https://blog.csdn.net/zxjiayou1314/article/details/52942809
mysql批量插入
2016年10月27日 09:56:18
阅读数:5476
对于一些数据量较大的系统,数据库面临的问题除了查询效率低下,还有就是数据入库时间长。特别像报表系统,每天花费在数据导入上的时间可能会长达几个小时或十几个小时之久。因此,优化数据库插入性能是很有意义的。
经过对MySQL innodb的一些性能测试,发现一些可以提高insert效率的方法,供大家参考参考。
- 一条SQL语句插入多条数据。
常用的插入语句如:
INSERT INTO insert_table
(datetime
, uid
, content
, type
)
VALUES (‘0’, ‘userid_0’, ‘content_0’, 0);
INSERT INTO insert_table
(datetime
, uid
, content
, type
)
VALUES (‘1’, ‘userid_1’, ‘content_1’, 1);
修改成:
INSERT INTO insert_table
(datetime
, uid
, content
, type
)
VALUES (‘0’, ‘userid_0’, ‘content_0’, 0), (‘1’, ‘userid_1’, ‘content_1’, 1);
修改后的插入操作能够提高程序的插入效率。这里第二种SQL执行效率高的主要原因是合并后日志量(MySQL的binlog和innodb的事务让 日志)减少了,降低日志刷盘的数据量和频率,从而提高效率。通过合并SQL语句,同时也能减少SQL语句解析的次数,减少网络传输的IO。
这里提供一些测试对比数据,分别是进行单条数据的导入与转化成一条SQL语句进行导入,分别测试1百、1千、1万条数据记录。
- 在事务中进行插入处理。
把插入修改成:
START TRANSACTION;
INSERT INTO insert_table
(datetime
, uid
, content
, type
)
VALUES (‘0’, ‘userid_0’, ‘content_0’, 0);
INSERT INTO insert_table
(datetime
, uid
, content
, type
)
VALUES (‘1’, ‘userid_1’, ‘content_1’, 1);
…
COMMIT;
使用事务可以提高数据的插入效率,这是因为进行一个INSERT操作时,MySQL内部会建立一个事务,在事务内才进行真正插入处理操作。通过使用事务可以减少创建事务的消耗,所有插入都在执行后才进行提交操作。
这里也提供了测试对比,分别是不使用事务与使用事务在记录数为1百、1千、1万的情况。
- 数据有序插入。
数据有序的插入是指插入记录在主键上是有序排列,例如datetime是记录的主键:
INSERT INTO insert_table
(datetime
, uid
, content
, type
)
VALUES (‘1’, ‘userid_1’, ‘content_1’, 1);
INSERT INTO insert_table
(datetime
, uid
, content
, type
)
VALUES (‘0’, ‘userid_0’, ‘content_0’, 0);
INSERT INTO insert_table
(datetime
, uid
, content
, type
)
VALUES (‘2’, ‘userid_2’, ‘content_2’,2);
修改成:
INSERT INTO insert_table
(datetime
, uid
, content
, type
)
VALUES (‘0’, ‘userid_0’, ‘content_0’, 0);
INSERT INTO insert_table
(datetime
, uid
, content
, type
)
VALUES (‘1’, ‘userid_1’, ‘content_1’, 1);
INSERT INTO insert_table
(datetime
, uid
, content
, type
)
VALUES (‘2’, ‘userid_2’, ‘content_2’,2);
由于数据库插入时,需要维护索引数据,无序的记录会增大维护索引的成本。我们可以参照innodb使用的B+tree索引,如果每次插入记录都在索 引的最后面,索引的定位效率很高,并且对索引调整较小;如果插入的记录在索引中间,需要B+tree进行分裂合并等处理,会消耗比较多计算资源,并且插入 记录的索引定位效率会下降,数据量较大时会有频繁的磁盘操作。
下面提供随机数据与顺序数据的性能对比,分别是记录为1百、1千、1万、10万、100万。
从测试结果来看,该优化方法的性能有所提高,但是提高并不是很明显。
性能综合测试:
这里提供了同时使用上面三种方法进行INSERT效率优化的测试。
从测试结果可以看到,合并数据+事务的方法在较小数据量时,性能提高是很明显的,数据量较大时(1千万以上),性能会急剧下降,这是由于此时数据量 超过了innodb_buffer的容量,每次定位索引涉及较多的磁盘读写操作,性能下降较快。而使用合并数据+事务+有序数据的方式在数据量达到千万级 以上表现依旧是良好,在数据量较大时,有序数据索引定位较为方便,不需要频繁对磁盘进行读写操作,所以可以维持较高的性能。
注意事项:
SQL语句是有长度限制,在进行数据合并在同一SQL中务必不能超过SQL长度限制,通过max_allowed_packet配置可以修改,默认是1M,测试时修改为8M。
事务需要控制大小,事务太大可能会影响执行的效率。MySQL有innodb_log_buffer_size配置项,超过这个值会把innodb的数据刷到磁盘中,这时,效率会有所下降。所以比较好的做法是,在数据达到这个这个值前进行事务提交。
yii项目中的使用
由于项目需要,要求是要单次往数据库里插入10000条数据,刚开始写得代码如下:
code=newCode();foreach(
c
o
d
e
=
n
e
w
C
o
d
e
(
)
;
f
o
r
e
a
c
h
(
codeModel as v) {
v) {
_code = clone
code;
c
o
d
e
;
_code->rid =
rid;
r
i
d
;
_code->created_at = time();
code−>setAttributes(
c
o
d
e
−
>
s
e
t
A
t
t
r
i
b
u
t
e
s
(
v);
$_code->save();
}
这段代码是将这10000条数据循环插入数据库,效率是比较低,但还可以忍受,这里插入的时间没有测算,估计在10秒以内。这时候我手贱,搞了五万条数据给同时插入,这时候问题来了,浏览器直接提示内存溢出(后来试了插入三万条数据没有提示溢出,但依然花了大概30秒时间)。有大神解释是用了yii2的语法会导致多余内存占用,建议用原生sql语句,然后我把上面的代码改造下面的:
db=Yii::
d
b
=
Y
i
i
::
app->db;
foreach (
codeModelas
c
o
d
e
M
o
d
e
l
a
s
v) {
db−>createCommand(′insertintowcode(rid,cid,regcode,usedtimes,status,reasonid,createdat)values(:rid,:cid,:regcode,:usedtimes,:status,:reasonid,:createdat)′,[′:rid′=>
d
b
−
>
c
r
e
a
t
e
C
o
m
m
a
n
d
(
′
i
n
s
e
r
t
i
n
t
o
w
c
o
d
e
(
r
i
d
,
c
i
d
,
r
e
g
c
o
d
e
,
u
s
e
d
t
i
m
e
s
,
s
t
a
t
u
s
,
r
e
a
s
o
n
i
d
,
c
r
e
a
t
e
d
a
t
)
v
a
l
u
e
s
(
:
r
i
d
,
:
c
i
d
,
:
r
e
g
c
o
d
e
,
:
u
s
e
d
t
i
m
e
s
,
:
s
t
a
t
u
s
,
:
r
e
a
s
o
n
i
d
,
:
c
r
e
a
t
e
d
a
t
)
′
,
[
′
:
r
i
d
′
=>
rid,’:cid’=>
v[′cid′],′:regcode′=>
v
[
′
c
i
d
′
]
,
′
:
r
e
g
c
o
d
e
′
=>
v[‘regcode’],’:used_times’=>0,’:status’=>$v[‘status’],’:reason_id’=>0,’:created_at’=>time()])->execute();
}
然后客户端浏览器依然提示内存溢出(这时候插入三万条数据的时候花了大概23秒时间,有进步,但还是不理想,所以继续倒腾),所以只好在index.php里加上一句
ini_set(‘memory_limit’,’1024M’);
将客户端内存大小设置为1GB(不知道这样表述正不正确,望指正),这时候插入五万条数据的时候没有提示内存溢出,但是执行速度还是很慢,五万条数据30秒内都插不完,最后提示超时。
所以总结下来,将yii2语法改成了原生sql性能也只是提升一些,但也并不是想要的效果。后来在网上找了一些插入大量数据性能优化资料,提到了比较重要的一点是将
insert into tablename(f1,f2,…) values (d1,d2,…);
insert into tablename(f1,f2,…) values (d1,d2,…);
…
这样的单条单条的insert语句改造成
insert into tablename(f1,f2,…) values (d1,d2,…),(d1,d2,…),(d1,d2,…);
这种一次insert多条记录,性能会提升比较明显,所以我就开始试验这种方法,将每条记录在代码里循环拼接成一条原生insert语句再进行插入(想想感觉可行性很高),拼接完成后依然继续插入五万条数据,拼接出来的sql语句就成了
insert into tablename(f1,f2,…) values (d1,d2,…),(d1,d2,…),(d1,d2,…)…;//此处省略了49997条记录
浏览器运行插入数据的页面,bong…,提示Mysql server has gone away!,mysql崩溃了。蛋疼~!然后寻思着将这五万条数据分批次进行插入,这样就不会产生数据库崩溃的情况,所以我将这五万条数据按照五千个一组分批插入,最后再运行这个页面,bong…五万条数据两秒之内就给全部插入进去了,两秒。。(这里已经去掉了前面加上的ini_set(‘memory_limit’,’1024M’);)效率跟之前比提高了几十倍,瞬间感觉整个人都变好了。又试了再插入三万条数据,1秒之内搞定。下面贴出部分参考代码
//下面是大于5000条数据拼接算法,小于5000条就没贴出来了
chu=(int)(
c
h
u
=
(
i
n
t
)
(
count/5000);//取整
yu=
y
u
=
count%5000;//取余
for (
i=0;
i
=
0
;
i <
chu;
c
h
u
;
i++) {
//每5000条数据组成一个insert语句,
codeModel是存放记录的一个数组
c
o
d
e
M
o
d
e
l
是
存
放
记
录
的
一
个
数
组
values = ”;
for (
j=
j
=
i*5000;
j<(
j
<
(
i+1)*5000;
j++)//拼接values的值$values.=′(′.$codeModel[$j][′rid′].′,′.$codeModel[$j][′cid′].′,"′.$codeModel[$j][′regcode′].′",0,′.$codeModel[$j][‘status′].′,0,′.time().′),′;
j
+
+
)
/
/
拼
接
v
a
l
u
e
s
的
值
$
v
a
l
u
e
s
.
=
′
(
′
.
$
c
o
d
e
M
o
d
e
l
[
$
j
]
[
′
r
i
d
′
]
.
′
,
′
.
$
c
o
d
e
M
o
d
e
l
[
$
j
]
[
′
c
i
d
′
]
.
′
,
"
′
.
$
c
o
d
e
M
o
d
e
l
[
$
j
]
[
′
r
e
g
c
o
d
e
′
]
.
′
"
,
0
,
′
.
$
c
o
d
e
M
o
d
e
l
[
$
j
]
[
‘
s
t
a
t
u
s
′
]
.
′
,
0
,
′
.
t
i
m
e
(
)
.
′
)
,
′
;
values = "insert into w_code (rid,cid,regcode,used_times,status,reason_id,created_at) values".substr(
values,0,−1).′;′;Yii::
v
a
l
u
e
s
,
0
,
−
1
)
.
′
;
′
;
Y
i
i
::
app->db->createCommand($values)->execute();
}
另外,这些代码外层都放了事务回滚的!将多条insert放入事务中也会提升一点数据插入的性能!