什么是数据倾斜？怎么解决？——Java全栈知识（12）

东莞呵呵

于 2024-05-04 20:13:16 发布

阅读量879

点赞数 21

分类专栏： Java全栈知识文章标签： java 数据库开发语言

本文链接：https://blog.csdn.net/dghehe/article/details/138449285

版权

Java全栈知识专栏收录该内容

33 篇文章 0 订阅

订阅专栏

什么是数据倾斜？怎么解决？

1、什么是数据倾斜

数据倾斜是指在分布式计算或数据库环境中，数据分布不均匀的现象。在理想的分布式系统中，数据和计算负载应该均匀分布在所有节点上。然而，由于各种原因，某些节点可能承载比其他节点更多的数据或计算负载，这就是数据倾斜。
比如一个系统中共有 500 万数据，但是属于同一个商家的数据就有 400 万，那么如果数据库按照商家做分库分表，就会导致出现严重的数据倾斜。一般来说，数据倾斜发生在分库分表的场景中比较多，因为主要是因为分表字段选择的不够合适导致的。你
比如说一个定价系统，然后我们是按照付款方做的分库分表。原来都挺好的，同一个用户的付款也不会有什么特别多的数据，但是后来出现了一种机构付款的情况，有一个商户作为付款方了，那么就会导致这个商户的数据有很多，就会大量的堆积在同一张表中，就导致这个表数据量剧增。

2、数据倾斜带来的问题

数据倾斜主要会带来以下几个问题：

性能瓶颈：数据倾斜可能导致某些节点的负载明显高于其他节点，从而成为整个系统的性能瓶颈。
比如在 Redist 中，出现的热 key 问题，其实也是数据倾斜的一种具体情况，那么就会导致这个节点的负载非常高。
资源利用不均：导致资源利用不均衡，一部分节点可能过载，而其他节点则闲置。
查询效率低下：在数据库中，数据倾斜可能导致查询效率低下，特别是在执行 JON 操作或聚合查询时。
比如数据库分表后数据倾斜，就会使得分表的效果并不明显，单表的数据量还是可能会很大，导致查询速度变慢。
影响其他业务：某些数据倾斜会导致查询比较慢，这样不仅使这个业务有影响，和他在同一张表中的其
他业务的数据也会有影响。比如某个小商家和一个大商户的数据在同一张表，那么它的查询也会变慢。
所以，我们在做分库分表的时候，在选择分表字段的时候，一定要考虑数据倾斜的问题，尽量选择那种不会有聚集性数据的字段来做分表字段，如订单表，尽量选择买家 D。

3、如何解决数据倾斜

什么是一致性Hash算法？
使用 Hash 一致性算法，进行二次分表。
image.png|600
如图，如果我们在分表 3 发生了数据倾斜，那么我们就可以进行二次分表针对于分表 3 中的数据再添加一张分表 5。然后重新计算 Hash 值取模，之后将数据匀在分表 3 和分表 5 之间。

其次，我们也可以在不新增表的情况下处理数据倾斜，如图：

原本分表 2 和分表 3 之间的数据都是存储在分表 3 中的，此时我们可以在 2 和 3 之间新增一个虚拟的节点, 该虚拟节点可以指向任意一个节点，然后把该虚拟节点中的数据都存储在指向的新节点中也就是其他的分表中。
这样可以有效的解决数据倾斜问题。

东莞呵呵

关注

21
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
什么是数据倾斜？怎么解决？——Java全栈知识（12）

数据倾斜是指在分布式计算或数据库环境中，数据分布不均匀的现象。在理想的分布式系统中，数据和计算负载应该均匀分布在所有节点上。然而，由于各种原因，某些节点可能承载比其他节点更多的数据或计算负载，这就是数据倾斜。比如一个系统中共有 500 万数据，但是属于同一个商家的数据就有 400 万，那么如果数据库按照商家做分库分表，就会导致出现严重的数据倾斜。一般来说，数据倾斜发生在分库分表的场景中比较多，因为主要是因为分表字段选择的不够合适导致的。你比如说一个定价系统，然后我们是按照付款方做的分库分表。
复制链接

扫一扫