Mysql如何快速插入10亿条数据呢？

最新推荐文章于 2024-11-08 22:59:30 发布

动态一时爽，重构火葬场

最新推荐文章于 2024-11-08 22:59:30 发布

阅读量970

点赞数 27

分类专栏： distributed 哲学与架构 db 文章标签： mysql 数据库

本文链接：https://blog.csdn.net/iucool/article/details/135781936

版权

27 篇文章 0 订阅

订阅专栏

16 篇文章 0 订阅

订阅专栏

13 篇文章 0 订阅

订阅专栏

假设每条数据1kb，所有要插入的数据都储存到一个服务器上

设定将数据全部放置在服务器S，并通过多个工作节点进行数据插入

考虑数据量，10亿条数据，每条1kb，那么大约是接近1tb。显然这么大的数据是不能一次加载到内存的，也不能直接储存到一个文件中，亦不能储存到同表中，因为一般而言单表最大储存2000w数据

单表不超过2000w行的原因在于按照最小行数据计算，2000w大约就是三层b+树，再大会增加磁盘IO的查询次数，并且会使得总储存量级到达百亿。再考虑到如buffer的优化手段被限制住，那么性能会进一步地下降

因此，可以将数据分为100份，那么每份就是大约10gb。数据库进行分库分表，每份数据对应一张表，每10份对应一库

设置一个批次插入为一个任务，在此定每次插入1000条数据，那么每个文件总共就是1w个任务，这1w个任务便为一个任务组

服务器S储存所有文件，多个节点作为工作节点进行数据插入，

每个工作节点绑定多个任务组
工作节点根据当前负载情况和进度申请任务数。比如工作节点w1最初申请了100任务，那么服务器S预锁定这100任务，其他工作节点无法获取
服务器S根据预定任务数持续传输文件内容
工作节点收到数据后，连接数据库，根据负载情况开启多线程对所接收任务，以任务ID组合行数作为表id进行插入数据

若插入过程中出现错误，则重新尝试3次后。若仍不行，则log记录失败行数、错误信息等
若数据插入完成，通知服务器S，服务器S更新任务状态已完成
若任务超时仍未完成，则服务器S释放任务状态
工作节点完成本节点绑定的所有任务之后，便可以开始抢占其他节点任务，以未完成量最多的任务组为优先

抢占之后可能会出现任务恰好完成了，但由于id一致，因此能够保证幂等
进入抢占状态，服务器S在每次申请时，都进行加锁，获取完相应任务后解锁