唯快不破：如何快速处理大量数据

最新推荐文章于 2023-05-28 09:34:44 发布

meng-xiang

最新推荐文章于 2023-05-28 09:34:44 发布

阅读量1k

点赞数

分类专栏：思维模式 redis 设计模式文章标签：数据处理并行队列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010205879/article/details/102480588

版权

本文探讨了如何处理大量数据的问题，从单进程处理到利用Redis的pub/sub和List机制实现并行处理。通过方案演进，最终采用方案四，借助Redis的List，实现了生产端与消费端的分离，提升了数据写入速度至3000/s，有效解决了数据处理的效率问题。

摘要由CSDN通过智能技术生成

背景

将数百张数据结构相同的表（用Tn代表），合并至一张表（用C代表）
T表数据量分布很不均衡，少至一位数，多至几十万
T表间没有业务关联
C表结构在T表结构的基础上增加了几个字段，无法使用INSERT INTO (SELECT * FROM)
数据总量约300万，经单进程测试，处理速度约500/s，预估耗时约100min

目标

最大化提升数据处理速度，将耗时降至10min左右，此时C表的写入速度约5000/s。

方案演进

方案一

因为T表间没有业务关联，所以每张表都可以单独处理。
将T表按数据量排序，每个进程处理N张表，尽量平衡各进程的负载。
存在的问题：
T表的数据量分布极为不均衡，有几张表数据量在70万左右，最终耗时约为（70万/500）s，瓶颈问题严重。

方案二

在 方案一 的的基础上，以 表+数据 的维度做并行处理，可以解决大表瓶颈问题。
存在的问题：
代码实现较复杂，需要考虑

每张T表的数据量
对大数据量的T表进行分割
避免数据重复处理

方案三

借助 Redis 的 pub/sub 机制，实现生产和消

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
唯快不破：如何快速处理大量数据

背景将数百张数据结构相同的表（用Tn代表），合并至一张表（用C代表）T表数据量分布很不均衡，少至一位数，多至几十万T表间没有业务关联C表结构在T表结构的基础上增加了几个字段，无法使用INSERT INTO (SELECT * FROM)数据总量约300万，经单进程测试，处理速度约500/s，预估耗时约100min目标最大化提升数据处理速度，将耗时降至10min左右，此时C表的写入...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。