【解决方案】处理大数据量（百万、千万、亿级别）的通用方案

最新推荐文章于 2024-05-30 13:45:19 发布

置顶 tanpenggood

最新推荐文章于 2024-05-30 13:45:19 发布

阅读量2.3k

点赞数 1

分类专栏：开发技巧

本文为【tanpenggood】原创文章，允许转载，但转载必须注明出处并附带首发链接！

本文链接：https://blog.csdn.net/AV_woaijava/article/details/118568972

版权

10 篇文章 1 订阅

订阅专栏

talk is cheap, show me the scheme.

以处理2020年~2021年数据为例。

利用数据的时序性和自增ID处理大数据量（百万、千万、亿级别）的通用方案。

该方案无论对于单节点还是分布式数据库均适用，作者的实践就是基于阿里云DRDS上处理亿级数据。

单节点的数据库，我们可以认为create_time与自增ID是正相关的。
即：10001 >= id <= 40000之间的所有数据肯定都是2021-07-07的。
而在分布式数据库中，自增ID与create_time的关系可能出现如下情况：

database	自增ID段	id	create_time
user_db1	10001~20000	10001	2021-07-07 12:00:00
user_db1	10001~20000	16666	2021-07-09 12:00:00
user_db2	20001~30000	20001	2021-07-07 12:00:00
user_db2	20001~30000	26666	2021-07-08 12:00:00
user_db3	30001~40000	30001	2021-07-07 12:00:00
user_db3	30001~40000	36666	2021-07-07 13:00:00