Java架构/一致性Hash算法在数据库分表中的实践

最新推荐文章于 2023-02-07 16:00:44 发布

weixin_33881753

最新推荐文章于 2023-02-07 16:00:44 发布

阅读量365

点赞数

文章标签： java 数据库 php

原文链接：https://juejin.im/post/5c00e8ebe51d451aa843b91f

版权

最近有一个项目，其中某个功能单表数据在可预估的未来达到了亿级，初步估算在90亿左右。与同事详细讨论后，决定采用一致性Hash算法来完成数据库的自动扩容和数据迁移。整个程序细节由我同事完成，我只是将其理解并成文，供有相同问题的同行参考。

参看此文的兄弟，默认各位已经熟悉一致性hash算法了。此文仅仅阐述代码细节，实现语言为Java。

项目背景

1.项目是一个实验室项目

2.其中有一个表叫做试验表，用于存储车型的试验数据，每个试验大概有6000条数据

3.总计初期约有2万个车型，每个车型初期包含超过50个试验。后期还会动态增长

4.试验表中的数据仅需要根据车型试验ID能取出来即可，没有其他更复杂的业务逻辑

方案决策

项目正式上线初期，数据量不会直接爆发式增长到90亿，需要时间上的积累（逐步做实验），最终可能达到90亿数据，甚至超过90亿数据。

按照我们实际了解情况，oracle存储数据量达到1千万的时候，性能擅可。而Oracle官方的说法，如单表存储1g有分区（大致500万数据），查询效率非常高。而试验表中仅四个字段，每条数据数据量较小。所以我们最终决定以1000万为节点，水平拆表。当表数据达到1千万时，即增加下一波表。进行数据自动迁移。

按照90亿的总量，1000万数据一个表的划分，最终大致会产生900个左右的表。所以我们最终使用了4个数据库。1个存储其他业务模块的表，3个存储此大数据表。每个数据库大致有300张表。性能上和数量上都可达到我们的要求。

相关表结构

试验信息表（EXPERIMENT_MESSAGE），挂接车型和试验的关系。试验数据表（EXPERIMENT_DATA），存储试验数据

试验信息表：

试验数据表：

我们采用作一致性hash的key，就是试验数据表中的EXPERIMENT_MESSAGE_ID字段。也就是说，每个试验数据表，不存则以，存则一次性大致有6000条数据。取同理。

一致性Hash算法实现

一致性Hash算法的hash部分，采用了著名的ketama算法。在此，我们不多讨论ketama算法的细节，若各位有兴趣，请查阅ketama算法

有了Hash的算法，接下来就要构造Hash环了。Hash环采用的SortedMap数据结构实现。

private final SortedMap<Long, T> circle = new TreeMap<Long, T>();
复制代码

其中添加节点和移除节点部分，需要根据hash算法得到节点在环上的位置，具体代码如下：

而hash环中得到节点部分比较特殊，根据一致性hash算法的介绍，得到hash环中的节点，实际上是计算出的hash值顺时针找到的第一个节点。

单表拆分实践

上面完成了一致性hash算法的实现，包含了hash算法和hash环的实现。接下来就要处理具体业务中，如何使用这个hash环和算法了。

我们业务中，主要操作这张表的数据，也就是增删查。然后我们数据库拆分成了3个，所以需要增删查的操作基本一致，都是先通过一致性hash得到库，再通过一致性hash得到表。

获取数据库名的操作如下，获取到数据库后，根据数据库名到对应的连接池中获取连接。

获取表名的操作如下，获取到数据库后，在对应的数据库中找到需要的表，再从该表中查询数据。

剩下的增删改操作和平常一致，在此不多赘述。

数据迁移实践

一致性hash势必涉及到数据迁移问题，我们采取的数据迁移方式为定时任务，针对每个数据库在每天夜里全量扫描一次。检查是否有数据量超过1000万的表，若存在这样的表，就把现有的表数量double。数据迁移只会在同库之间迁移，不会涉及跨数据库的情况。此方案为初步方案，后续会改进的更加智能，根据表的数量，增加不同数量的表。而不是简单的把表数量翻倍。表创建后，将需要迁移的表数据逐个迁移。

在连接到数据源后，我们做了如下事情进行数据迁移

1.获取库中所有的表

 List<String> tables = getTables(connection, p, d.toString());
复制代码

2.遍历表，检查表中数据是否超过边界线（我们为1000万）

3.根据所有的表计算现有的虚拟节点

ConsistentHash<String> consistentHashOld = getConsistentHash(tables);
复制代码

4.把表加倍

5.计算加倍后的虚拟节点

ConsistentHash<String> consistentHashNew = getConsistentHash(tablesNew);
复制代码

6.数据迁移

总结

以上为我们所做的一致性hash实践，其中还存在很多问题，比如迁移过程单线程导致迁移较慢、自动扩容机制不智能、迁移过程中数据访问不稳定等情况。

我们将会在后续的开发中逐步进行完善改进。

以上就是我们针对一致性hash在oracle分表中的实践

欢迎大家和我一起学习交流构建Java云架构，我这边会将近期研发的Java云架构的搭建过程和精髓记录下来，帮助更多有兴趣研发Java高级架构的朋友，大家来一起探讨Java高级架构的搭建过程及如何运用于企业项目。

我本人邀约各大BATJ架构大牛共创Java高级架构交流社区群，（群号：673043639）致力于免费提供Java架构行业交流平台，通过这个平台让大家相互学习成长，提高技术，让自己的水平进阶一个档次，成功通往Java架构技术大牛或架构师发展。

希望此文能帮到大家的同时，也听听大家的观点。欢迎留言讨论，加关注，分享你的高见！持续更新！

To-陌霖Java架构

分享互联网最新文章关注互联网最新发展

weixin_33881753

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java架构/一致性Hash算法在数据库分表中的实践

最近有一个项目，其中某个功能单表数据在可预估的未来达到了亿级，初步估算在90亿左右。与同事详细讨论后，决定采用一致性Hash算法来完成数据库的自动扩容和数据迁移。整个程序细节由我同事完成，我只是将其理解并成文，供有相同问题的同行参考。参看此文的兄弟，默认各位已经熟悉一致性hash算法了。此文仅仅阐述代码细节，实现语言为Java。项目背景1.项目是一个实验室项目2.其中有一个表叫做试验表，用...
复制链接

扫一扫