参考:10万条数据批量插入,到底怎么做才快? - 知乎 (zhihu.com)
首先一般有两种方式:1.使用jdbc批处理模式
2.使用insert into values方式
第一种方式:他的优势是jdbc会帮我们进行预编译,然后把预编译结果缓存起来(我对这个预编译的理解是,一条sql到了mysql的sever层,需要进行词法分析,语法分析,构建语法树,然后检查字段是否有错,把*替换成所有列这些操作),他是用循环的形式进行插入的,缺点就是如果mysql服务器和应用服务器不是同一台的话,需要多次网络IO,这里可能会影响性能。(一般情况下第一种方式会比第二种方式快)(其核心其实也是批量插入,但是源码里是1000一个分片)
第二种方式:一条 SQL 插入。优势在于只有一次网络 IO,即使分片处理也只是数次网络 IO,所以这种方案不会在网络 IO 上花费太多时间。劣势,一是 SQL 太长了,甚至可能需要分片后批量处理;二是无法充分发挥 PreparedStatement 预编译的优势,SQL 要重新解析且无法复用;三是最终生成的 SQL 太长了,数据库管理器解析这么长的 SQL 也需要时间。(在浪潮里是通过这个方式实现的,merge into加for each方式写在xml里,一条sql执行完插入,减少网络IO)
当然还有其他优化手段辅助:1.先把索引删除,等插入完再把索引添加上 2.对插入顺序要求,尽量按从小到大的顺序插入(减小对B+树形状改变,如果从小到大的顺序,只会在右下角插入,如果插入大小随机,有可能在中间插入,会改变树的形状)