一文带你如何快速安全的插入千万条数据

最新推荐文章于 2024-04-22 07:04:41 发布

AI科学小老师

最新推荐文章于 2024-04-22 07:04:41 发布

阅读量459

点赞数

本文链接：https://blog.csdn.net/weixin_41663412/article/details/104953749

版权

本文介绍如何在半小时内快速、安全地将千万条数据导入MySQL。通过估算文件大小、批量插入、保证数据完整性和事务处理，以及设置数据库参数，实现了高效的数据入库。在1.5GB的文件中，1000万条数据的导入耗时约20分钟。文章提供部分关键代码，并分享了完整代码的GitHub地址。

摘要由CSDN通过智能技术生成

个人博客导航页（点击右侧链接即可打开个人博客）：大牛带你入门技术栈

前言

最近有个需求解析一个订单文件，并且说明文件可达到千万条数据，每条数据大概在20个字段左右，每个字段使用逗号分隔，需要尽量在半小时内入库。

思路

1.估算文件大小

因为告诉文件有千万条，同时每条记录大概在20个字段左右，所以可以大致估算一下整个订单文件的大小，方法也很简单使用FileWriter往文件中插入一千万条数据，查看文件大小，经测试大概在1.5G左右；

2.如何批量插入

由上可知文件比较大，一次性读取内存肯定不行，方法是每次从当前订单文件中截取一部分数据，然后进行批量插入，如何批次插入可以使用insert(...)values(...),(...)的方式，经测试这种方式效率还是挺高的；

3.数据的完整性

截取数据的时候需要注意，需要保证数据的完整性，每条记录最后都是一个换行符，需要根据这个标识保证每次截取都是整条数，不要出现半条数据这种情况；

4.数据库是否支持批次数据

因为需要进行批次数据的插入，数据库是否支持大量数据写入，比如这边使用的mysql，可以通过设置max_allowed_packet来保证批次提交的数据量；

5.中途出错的情况

因为是大文件解析，如果中途出现错误，比如数据刚好插入到900w的时候，数据库连接失败，这种情况不可能重新来插一遍，所有需要记录每次插入数据的位置，并且需要保证和批次插入的数据在同一个事务中，这样恢复之后可以从记录的位置开始继续插入。

实现

1.准备数据表

这里需要准备两张表分别是：订单状态位置信息表，订单表；

CREATE TABLE `file_analysis` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `file_type` varchar(255) NOT NULL COMMENT '文件类型 01:类型1，02:类型2',
  `file_name` varchar(255) NOT NULL COMMENT '文件名称',
  `file_path` varchar(255) NOT NULL COMMENT '文件路径',
  `status` varchar(255) NOT NULL COMMENT '文件状态  0初始化；1成功；2失败：3处理中',
  `position` bigint(20) NOT NULL COMMENT '上一次处理完成的位置',
  `crt_time` datetime NOT NULL COMMENT '创建时间',
  `upd_time` datetime NOT NULL COMMENT '更新时间',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=

最低0.47元/天解锁文章

AI科学小老师

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
一文带你如何快速安全的插入千万条数据

个人博客导航页（点击右侧链接即可打开个人博客）：大牛带你入门技术栈前言最近有个需求解析一个订单文件，并且说明文件可达到千万条数据，每条数据大概在20个字段左右，每个字段使用逗号分隔，需要尽量在半小时内入库。思路1.估算文件大小因为告诉文件有千万条，同时每条记录大概在20个字段左右，所以可以大致估算一下整个订单文件的大小，方法也很简单使用FileWriter往文件中插入一千...
复制链接

扫一扫