l 随机分布表不足的表现:
随机分布表,入库加载时均匀分布各个节点的,但在查询的时候,精确查询还好,如果关联查询,因为我们的数据分布各个节点是没有规律的,所以关联查询时,会根据关联列进行动态重分布,根据关联列重分布各个节点,强制HASH,数据量小还好,如果数据量大动态重分布一次很耗时的。
l 所以现场大表一定要有HASH键,在GBase中,HASH分布列的选择十分重要,选择不正确,则有如下影响:
Ø 影响数据分布,不好评估数据库空间使用情况
Ø 影响性能,节点间出现木桶效应
l 表一定要有HASH分布列
Ø 表有主键(PK),优先选择PK
Ø 没有PK,选择经常使用、且数据分布均匀的字段