1. 堆存储vs.追加优化存储
- 对经常需要执行和大量并发执行update/delete/insert的表采用堆存储
- 对于在初始装载后并且只会在大型批处理操作执行后续插入的表和分区采用追加优化存储
- 绝不在追加优化表上执行单个update/delete/insert操作
- 绝不在追加优化表上执行并发的update/delete操作,可以执行并发的批量insert操作
堆存储是默认模型,并且是postgresql为所有数据库表使用的模型.
1.创建一个堆表:
CREATE TABLE foo (a int, b text) DISTRIBUTED BY (a);
2.创建一个追加优化表:
CREATE TABLE bar (a int, b text) WITH (appendonly=true) DISTRIBUTED BY (a);
2. 行存vs.列存
- 如果负责中有需求update并且需要频繁insert的迭代事务,采用行存
- 宽表选择使用行存
- 为一般目的或混合负载时使用行存
- 有少量列并且需要在列上计算数据聚集时采用列存
- 如果有单个列定期被更新且不修改其他的列时采用列存
列存使用的场景比较有限,且只能用在追加优化表上.列存是每一列的值都是segment中一个单独的文件.当where条件为某一列,且求这一列的聚集数据时,使用列存会比较好,如:
SELECT AVG(salary)... WHERE salary > 10000
创建一个列存表,必须是追加优化表:
CREATE TABLE bar (a int, b