gp数据表分为 堆表 和 apend only表。
默认为堆表。
Apend only表可以进行表压缩。
压缩可以减少磁盘空间,但是数据压缩,解压过程会消耗cpu。
压缩表会增加数据库对象数。
(1)数据表压缩的设计规范
频繁更新的表不可以使用。
表的记录数/(集群节点数* 4)大于10万条,或者重要的表,必须建成压缩表。
压缩表建议使用zlib压缩算法,压缩级别5。
所有的不再更新的历史表,备份表,归档表 统一使用压缩存储。
(2)压缩表的应用场景
业务上不需要对表进行更新和删除操作,用truncate + insert 就可以实现业务逻辑
访问表的时候基本上是全表扫描,不需要在表上建立索引
不能经常对表进行加字段或修改字段类型,对Appendonly表加字段比普通表慢很多
(3)语法介绍
建表的时候加上 with(appendonly=true) 就可以指定表是Appendonly表。
如果需要建压缩表,则加上 with(appendonly=true,compresslevel=5),其中
compresslevel是压缩率,取值为1~9,一般选择5就足够
appendonly=true, orientation=column这两个属性决定了这是列存压缩表。
compresstype: 压缩方式,支持zlip,rte等
compresslevel: 压缩级别,0-9,一般压缩级别为5即可
blocksize: 块大小8KB-2MB, 大小在8192 - 2097152 之间并且是8192的倍数
distributed by(fieldname1,fieldname2) : 分布键可以以多个设置,也可以设置一个,GP会hash分布到不同的segment上
ALTER TABLE ${schema}.table_name ADD PARTITION P_NAME START (date '${DATE}') INCLUSIVE
END (date '${NEXT_ATE}') EXCLUSIVE
with (appendonly=true,orientation=column,compresstype=zlib,compresslevel=5)