oracle数据库水平切分,分布式数据库下数据是如何进行水平切分的？

最新推荐文章于 2023-02-12 16:30:31 发布

0x0000102a

最新推荐文章于 2023-02-12 16:30:31 发布

阅读量402

点赞数

文章标签： oracle数据库水平切分

分布式数据库下数据是如何进行水平切分的？

说明：之前对分布式数据库接触的比较少，近期学习了两周Gbase 8a MPP Cluster

，由于个人知识有限，只记录下对分布式数据库数据切分浅显的理解。

首先GBase 8a MPP Cluster

，全称：南大通用大规模分布式并行数据库集群系统，它是在

GBase 8a

列存储数据库基础上开发的一款

Shared Nothing

架构的分布式并行数据库集群。

数据库环境如下：

管理节点

:192.168.38.10

、

192.168.38.20

计算节点:192.168.38.10

、

192.168.38.20

、

192.168.38.30

其中管理节点由多台服务器组成一个管理集群，计算节点由多台服务器组成一个计算集群。

[root@cjcos0

~]# gcadmin

数据库分布情况如下：

每台计算节点服务器上有两个主分片，一个副本分片

[gbase@cjcos01 gcinstall]$ gcadmin showdistribution node

当然，主分片个数和备份分片个数可以根据实际情况进行调整，例如：

[gbase@cjcos01 gcinstall]$ gcadmin distribution gcChangeInfo.xml p

pattern

在如上这种架构和分片结构下，表数据是如何分布的？

例如有一张表

，因为一共有

个分片，

表的数据会被切分成

份，也就是

t1_n1,t1_n2,t1_n3,t1_n4,t1_n5,t1_n6

，按照上面的分布情况，会将

t1_n1,t1_n4

主分片数据存储在

192.168.38.10

服务器上，将

t1_n2,t1_n5

主分片数据存储在

192.168.38.20

服务器上，将

t1_n3,t1_n6

主分片数据存储在

192.168.38.20

服务器上。

某台计算节点服务器发生故障，如何实现故障转移？

例如

192.168.38.10

服务器故障，那么当有应用需要访问这台服务器上的

t1_n1

、

t1_n4

数据时，可以将查询指向

t1_n1

、

t1_n4

的副本数据里，既

192.168.38.20

副本集里的

t1_n1

、

t1_n4

，还可以通过将高可用模式改成负载均衡模式，将

192.168.38.10

主分片对应的副本分片指定分布到多台服务器上，降低木桶效应的产生。

在插入或加载数据时，这条数据应该存储到哪台服务器的哪个分片上？

具体新数据应该存储到哪个上，和表分布方式有关，常见分布表有随机分布表和HASH

分布表。

(1)

随机分布表

将数据平均分布到各个节点各个分片上，优点是看上去表的数据是被均匀打散到各个节点各个分片上的，减少了木桶效应的产生，但是在进行大表关联或

group by

等操作时，可能会因为拉复制表或

HASH

动态重分布导致性能下降。

(2)HASH

分布表

提前将表的某一列选为

HASH

分布列，对该列进行

HASH

运算生成

HASH

值，而在数据库内部提前创建好了一张

nodedatamap

表，这张表记录了具体的

HASH

值对应到哪个具体节点的分片上，而

nodedatamap

表的数据又是根据之前创建好的

distribution

分布生成的。这样会将

HASH

值相同的数据存放到一个分片上，优点是在进行大表关联或

group by

等操作时，可以实现静态减少拉复制表或

HASH

动态重分布操作，缺点是数据可能分布不均匀，一定要选取合适的

HASH

分布列。

首先看下各个节点对应的HASH

值数量基本是相同的。

gbase> select count(hashkey),nodeid,data_distribution_id from gclusterdb.nodedatamap group by nodeid,data_distribution_id order by 2;

创建表

和

，实际看下数据是如何分布的。

gbase> create table t1(id int,name varchar(10)) distributed by ('id');

gbase> create table t2(id int,cname varchar(10)) distributed by ('id');

gbase> insert into t1 values(1,'A'),(2,'B'),(3,'C'),(4,'D'),(5,'E'),(7,

’

FFF

’

);

gbase> insert into t2 values(1,'AA'),(2,

’

),(3,'BB'),(5,'CC'),(7,'DD'),(9,'EE');

先看下id=1,2,3,4,5,6,9

时对应的

hash

值是多少，应该存储在哪个分片上。

select

from

gbase.nodedatamap

where

hashkey=(crc32(

'1'

))

mod

65536

and

data_distribution_id=

;

select

from

gbase.nodedatamap

where

hashkey=(crc32(

'2'

))

mod

65536

and

data_distribution_id=

;

select

from

gbase.nodedatamap

where

hashkey=(crc32(

'3'

))

mod

65536

and

data_distribution_id=

;

select

from

gbase.nodedatamap

where

hashkey=(crc32(

'4'

))

mod

65536

and

data_distribution_id=

;

select

from

gbase.nodedatamap

where

hashkey=(crc32(

'5'

))

mod

65536

and

data_distribution_id=

;

select

from

gbase.nodedatamap

where

hashkey=(crc32(

'7'

))

mod

65536

and

data_distribution_id=

;

select

from

gbase.nodedatamap

where

hashkey=(crc32(

))

mod

65536

and

data_distribution_id=

;

可知：id=1,2,3,4,5,7,9

数据分别分布在

nodeid4,5,4,3,4,0,2(segments 5,6,5,4,5,1,3)

上，例如

id=1,3,5

存储在

192.168.38.20

服务器是上

、

的第

个分片上，既

t1_n5

、

t2_n5

表上。

以单机模式连接到192.168.31.20

，验证一下上面的理论是否正确。

[gbase@cjcos02 ~]$ gncli

gbase> show tables;

其中

n2,n5

是主分片数据，

n1,n4

是备份分片。

查看

id=1,3,5

确实分布到了

表第

个分片上，既

t1_n5;

gbase> select * from t1_n5;

gbase> select * from t2_n5;

同理，我们知道，

和

表

数据分布如下：

ip=192.168.31.10

p=192.168.31.20

p=192.168.31.30

id=1

t1_n5,t2_n5

id=2

t1_n6,t2_n6

id=3

t1_n5,t2_n5

id=4

t1_n4

id=5

t1_n5,t2_n5

id=7

t1_n1,t2_n1

id=9

t1_n3,t2_n3

可以看到，t1

和

表的数据通过

HASH

算法存储到了

192.168.31.10,20,30

三台服务器上，每个服务器节点下有

个分片，既

张表数据理论上被分成

份存储到

台服务器上。例如

表被切分成

t1_n1,t1_n2,t1_n3,t1_n4,t1_n5,t1_n6

，数据是按照

nodedatamap

表里

hash

值和分片对应关系对应写入到各个分片上的，从而实现了表数据的水平切分。

具体过程：

先根据实际情况，通过

gcadmin distribution

命令定义了每个节点上的主分片和副本分片的个数和分布，以及负载或高可用模式等，

使用

initnodedatamap

命令，同时根据第一步制定的分布规则，将hash

值和分片对应关系写入到

nodedatamap

表里。

3 HASH

分布表在写入数据时，根据

nodedatamap

表里hash

值和分布对应关系，将数据写入到指定节点的指定分片上。

那么在分布式数据库下，SQL

优化需要考虑哪些因素呢？

在分布式数据库下,

多表

join

操作，

group by

，

order by

是如何实现的？

下一节在具体说明下优化相关内容。

欢迎关注我的微信公众号"IT小Chen"，共同学习，共同成长！！！

0x0000102a

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
oracle数据库水平切分,分布式数据库下数据是如何进行水平切分的？

分布式数据库下数据是如何进行水平切分的？说明：之前对分布式数据库接触的比较少，近期学习了两周Gbase 8a MPP Cluster，由于个人知识有限，只记录下对分布式数据库数据切分浅显的理解。首先GBase 8a MPP Cluster，全称：南大通用大规模分布式并行数据库集群系统，它是在GBase 8a列存储数据库基础上开发的一款Shared Nothing架构的分布式并行数据库集群。数据库环...
复制链接

扫一扫