对于基于GBase 8a MPP Cluster分布式数据库集群系统,其物理磁盘容量的计算方法为:
最小磁盘空间需求MDSR (Minimum Disk Space Requirements) = 原始数据×数据库及相关工作空间因子×副本选项因子×操作系统因子×RAID因子×数据库压缩因子。
最小磁盘空间需求MDSR除以每台服务器的存储空间,就能得到数据节点服务器的数量。
膨胀因子 | 因子值 | 说明 |
数据库及相关工作空间因子 | 1.5 | 对于海量数据的复杂关联和复杂聚合运算,中间过程涉及大量表间关联操作,生成众多中间表;上述过程均占用较大的临时工作空间,一般预留30%~40%临时空间 |
副本选项因子 | 2 | 权衡性能、空间代价和高可用性等因素,配置1份副本 |
操作系统和文件系统因子 | 1 | 一般情况下,规划2块独立的400GSSD盘用于安装操作系统以及其他软件,操作系统盘不占据数据盘存储空间,所以此项因子为1 |
RAID因子 | 12/10 | 一般采用RAID5,同时还需要考虑热备盘。12块盘3.84TB的SSD盘,设置1块热备盘,11块盘做成 1组RAID5; |
数据库压缩因子 | 1 | 本项目按可用存储空间计算,不考虑原始数据的压缩比。故数据库压缩因子为1 |
根据以上,系统最小磁盘空间需求的计算公式可以归纳为:
针对业务分析数据的最小磁盘空间需求MDSR (Minimum Disk Space Requirements)
= (412TB * 1.5* 2 *1* 12/10 * 1)
= 1483 TB
单节点磁盘容量为:12*3.5TB=42TB
需要的数据节点数:1483TB/42TB =40台。