「分布式技术专题」分区

数据分区是一种物理数据库的设计技术,它的目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间。

分区并不是生成新的数据表,而是将表的数据均衡分摊到不同的硬盘,系统或是不同服务器存储介子中,实际上还是一张表。

另外,分区可以做到将表的数据均衡到不同的地方,提高数据检索的效率,降低数据库的频繁IO压力值。

原理

分区是将大量数据和访问请求均匀分布在多个节点上。如果每个节点均匀承担数据和请求,那么理论上10个节点就应该能承担10倍于单节点的数据量和访问量。这个理论是忽略了复制产生的Follower副本的存在。

Follower副本的空间和内存是不可能跟其他Leader副本共享的,但是计算能力(CPU)是可以的。当所有节点都提供服务的时候(多活),是计算资源最大利用。

数据分区和数据放置是逻辑和物理的关系,逻辑是顶层设计,物理是具体实现,逻辑设计决定物理实现,物理约束反过来影响逻辑设计。利用分区规则对数据进行分区,数据库的分区方案可以叫做数据库分区计划(Database Partitioning Plan)。这里的分区规则可以是hash,range等。

实现方式

分布式数据的数据分区方法,根据负载均衡算法确定出可以管理该数据分区的待选分区管理模块。然后,再从当前时刻超前于数据分区的时刻信息的待选分区管理模块中确定出目标分区管理模块。该方法在为数据分区重新分配分区管理模块时,选择当前时刻超前于数据分区的时刻信息的分区管理模块作为目标分区管理模块,从而避免出现当有新数据写入时才发现为所述数据分区分配的新的分区管理模块的当前时刻滞后于所述数据分区的时刻信息,导致新的分区管理模块退出服务的现象,大大降低分区管理模块的中断时间,提高数据库的存储速率和效率。

目前实现分区主的方式主要有Range、Hash、等值、随机四种方式来实现:

Range分区

Range分区是应用范围比较广的表分区方式,它是以列值的范围做为分区的划分条件,将记录存放到列值所在的Range分区中。

Hash分区

一致性哈希分区实现思路是为系统中的每个节点分配一个token,范围是0~232-1,这些token构成一个HASH环。数据读写执行节点查找操作时,先根据key计算出HASH值,然后顺时针找到第一个遇到的token节点。

等值分区

一般用于数据可枚举,有限个值,可以考虑列表分区,例如国家名字,按州来分区 创建list分区表,我们按国家来分别存放在不同的州,每个州是一个分区。

随机分区

算法将数组a[1],…,a[j]进行分区,方法是在下标h处插入val = a[i],这个位置正是数组排序后它应处的位置。当算法结束时,下标比h小的单元的值小于val,而下标比h大的单元的值大于或等于val,算法送回下标h,与分区算法的区别在于:随机分区的分区元素是随机的。采用自定义分区随机分配解决数据倾斜的问题。

优势与劣势

优势

1、相对于单个文件系统或是硬盘,分区可以存储更多的数据。
2、数据管理比较方便,比如要清理或废弃某年的数据,就可以直接删除该日期的分区数据即可。
3、精准定位分区查询数据,不需要全表扫描查询,大大提高数据检索效率。
4、可跨多个分区磁盘查询,来提高查询的吞吐量。
5、在涉及聚合函数查询时,可以很容易进行数据的合并。

劣势

1、已存在的非分区表没有办法可直接转化为分区表。

2、分区表会操作与维护相对复杂些,优其涉及到同时有一、二级分区时。

面临挑战

1、分布式数据库在进行表分片后,再时行细粒度分区时,很难用一种分区来满足应用场景。
2、当采用多种分区方式相结合的方时,技术实现上较复杂。
3、多种分区策策略的情况下,进行数据迁移或数据恢复时,实现上比较复杂。

以上为分区内容,「分布式技术专题」是国产数据库hubble团队精心整编,专题会持续更新,欢迎大家保持关注。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值