10万条数据批量插入，到底怎么做才快？

最新推荐文章于 2024-07-05 14:24:32 发布

「已注销」

最新推荐文章于 2024-07-05 14:24:32 发布

阅读量1.1k

点赞数

分类专栏：程序员 Java 架构师文章标签： mybatis java 数据库

本文链接：https://blog.csdn.net/Park33/article/details/125934117

版权

本文通过对比分析，探讨了两种批量插入数据的方法：JDBC批处理（预编译+循环插入）和生成单条大SQL插入。测试结果显示，JDBC批处理在插入5万条数据时耗时约901毫秒，而生成单条SQL插入耗时1805毫秒。考虑到网络I/O和数据库解析SQL的时间，JDBC批处理在大批量插入时具有优势。此外，还分析了MyBatis Plus的saveBatch方法，其内部也是采用了类似的批处理策略进行数据分片和插入。

摘要由CSDN通过智能技术生成

基本上明白了这个小伙伴的意思，于是我自己也写了个测试案例，重新整理了今天这篇文章，希望和小伙伴们一起探讨这个问题，也欢迎小伙伴们提出更好的方案。

1. 思路分析

批量插入这个问题，我们用 JDBC 操作，其实就是两种思路吧：

用一个 for 循环，把数据一条一条的插入（这种需要开启批处理）。
生成一条插入 sql，类似这种 insert into user(username,address) values('aa','bb'),('cc','dd')... 。

到底哪种快呢？

我们从两方面来考虑这个问题：

插入 SQL 本身执行的效率。
网络 I/O。

先说第一种方案，就是用 for 循环循环插入：

这种方案的优势在于，JDBC 中的 PreparedStatement 有预编译功能，预编译之后会缓存起来，后面的 SQL 执行会比较快并且 JDBC 可以开启批处理，这个批处理执行非常给力。
劣势在于，很多时候我们的 SQL 服务器和应用服务器可能并不是同一台，所以必须要考虑网络 IO，如果网络 IO 比较费时间的话，那么可能会拖慢 SQL 执行的速度。

再来说第二种方案，就是生成一条 SQL 插入：

这种方案的优势在于只有一次网络 IO，即使分片处理也只是数次网络 IO，所以这种方案不会在网络 IO 上花费太多时间。
当然这种方案有好几个劣势，一是 SQL 太长了，甚至可能需要分片后批量处理；二是无法充分发挥 PreparedStatement 预编译的优势，SQL 要重新解析且无法复用；三是最终生成的 SQL 太长了，数据库管理器解析这么长的 SQL 也需要时间。

所以我们最终要考虑的就是我们在网络 IO 上花费的时间，是否超过了 SQL 插入的时间？这是我们要考虑的核心问题。

2. 数据测试

接下来我们来做一个简单的测试，批量插入 5 万条数据看下。

首先准备一个简单的测试表：

CREATE TABLE `user` (
  `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
  `username` varchar(255) DEFAULT NULL,
  `address` varchar(255) DEFAULT NULL,
  `password` varchar(255) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

接下来创建一个 Spring Boot 工程，引入 MyBatis 依赖和 MySQL 驱动，然后 application.p