100秒导出百万数据

昔日微醉

已于 2023-05-23 17:00:43 修改

阅读量137

点赞数

文章标签：数据库 java 开发语言

于 2023-05-23 16:55:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41494158/article/details/130829615

版权

100秒导出百万数据

背景
原理

背景

用户要求能够一次导出一个月的数据（10w量级别）

原理

在这里插入图片描述

需求分析

生产环境担不起风险
内存要平稳不能溢出
对数据库缓存等中间件影响要小
导出要尽可能快
异步操作
不能重复导出
同时导出的操作不能超过10个
必要的时候快速强制终止导出操作

代码展示

核心之一是主表的分页逻辑

每次从指定ID的位置读取符合条件的前1000条数据，取代传统的分页;必须用ID排序，让用户在excel自己调整排序；
（经测试每导出5w条数据，pageSize设置为1000或10000，导出时间没有区别，但是设置为100会慢2～3s）
在这里插入图片描述
select * from table where id > xx limit 1000,这种查询也有缺点，对于亿级别的数据而言，数据如果比较离散，第一次和最后一次会查询非常久，造成超时。所以可以优化为

select * from table where id > xx and id <(xx+100000) limit 1000

核心之二是每一批次的导出都先清空链表，方便内存回收，重复利用同一个链表，保证内存的稳定不溢出

这里用的阿里的easyExcel，这玩意写数据的时候会把整个excel文件一直放在内存；直到最后的finish(),71w数据的文件总大小为72M,平均每1W笔数据1M；可以考虑替换成XSSF（XSSF可以设置内存中的大小恒定为1M）;

非核心之三利用in（索引值），取代偷懒的一条一条查库操作，减少网络传输次数，对导出时间能够提升一个数量级

非核心之四利用guava的本地缓存或者自己写个LRU解决一些需要远程查寻且重复度较高的数据，减少网络传输次数，避免用redis和内存溢出

非核心之五，对于总数不多（1000以内）但是需要用到的表数据，一次加载在内存，或者考虑分页预热到缓存

异步友好提示

利用redis的set解决导出前校验

重写toString(), 解决重复查询问题
在这里插入图片描述

如何更快，导出更多

更快：多线程+多sheet；比如两个线程，A线程处理0-50W的数据
B线程处理了50W-100W的数据，分别写到两个sheet
更多：利用数仓

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
100秒导出百万数据

这里用的阿里的easyExcel，这玩意写数据的时候会把整个excel文件一直放在内存；直到最后的finish(),71w数据的文件总大小为72M,平均每1W笔数据1M；select * from table where id > xx limit 1000,这种查询也有缺点，对于亿级别的数据而言，数据如果比较离散，第一次和最后一次会查询非常久，造成超时。（经测试每导出5w条数据，pageSize设置为1000或10000，导出时间没有区别，但是设置为100会慢2～3s）
复制链接

扫一扫

昔日微醉 CSDN认证博客专家 CSDN认证企业博客

码龄7年

4: 原创

53万+: 周排名

57万+: 总排名

872: 访问

: 等级

45: 积分

23: 粉丝

0: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

分类专栏

mysql 1篇
gitlab 1篇

最新评论

MySQL性能优化
CSDN-Ada助手: 非常感谢您为我们带来这篇关于MySQL性能优化的博客，非常实用！恭喜您持续创作，我们期待您更多的分享。为了让您的内容更加丰富，我们建议您可以尝试从不同角度、不同层面对MySQL性能优化进行深入研究，希望您能够继续保持创作的热情，为读者们带来更多有价值的内容。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
100秒导出百万数据
CSDN-Ada助手: 恭喜您写了这么精彩的博客！您的经验真的很值得借鉴。我非常期待您未来更多的创作。如果可以的话，我想建议您写一篇关于数据可视化的博客，这将会是一个非常有趣和有用的话题。谢谢您的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
分布式id生成器
CSDN-Ada助手: 恭喜您又完成了一篇优秀的博客，关于分布式id生成器的讲解也非常详细。不过在下认为，接下来可以尝试探讨一下分布式系统中的数据一致性问题，或是一些关于微服务架构的实践经验。希望您能够继续保持创作热情，为读者带来更多有价值的内容。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。