最近有一个项目,其中某个功能单表数据在可预估的未来达到了亿级,初步估算在90亿左右。与同事详细讨论后,决定采用一致性Hash算法来完成数据库的自动扩容和数据迁移。整个程序细节由我同事完成,我只是将其理解并成文,供有相同问题的同行参考。
参看此文的兄弟,默认各位已经熟悉一致性hash算法了。此文仅仅阐述代码细节,实现语言为Java。
项目背景
1.项目是一个实验室项目
2.其中有一个表叫做试验表,用于存储车型的试验数据,每个试验大概有6000条数据
3.总计初期约有2万个车型,每个车型初期包含超过50个试验。后期还会动态增长
4.试验表中的数据仅需要根据车型试验ID能取出来即可,没有其他更复杂的业务逻辑
方案决策
项目正式上线初期,数据量不会直接爆发式增长到90亿,需要时间上的积累(逐步做实验),最终可能达到90亿数据,甚至超过90亿数据。
按照我们实际了解情况,oracle存储数据量达到1千万的时候,性能擅可。而Oracle官方的说法,如单表存储1g有分区(大致500万数据),查询效率非常高。而试验表中仅四个字段,每条数据数据量较小。所以我们最终决定以1000万为节点,水平拆表。当表数据达到1千万时,即增加下一波表。进行数据自动迁移。
按照90亿的总量,1000万数据一个表的划分,最终大致会产生900个左右的表。所以我们最终使用了4个数据库。1个存储其他业务模块的表,3个存储此大数据表。每个数据库大致有300张表。性能上和数量上都可达到我们的要求。
相关表结构
试验信息表&