1. 数据仓库优化原则
尽可能使用压缩、按列存储
将视图替换成实际的表
将复杂查询拆分,利用中间表复用中间结果,一方面可以减少重复计算,节省IO, 另一方面也可以降低内存使用,提高效率。
2. GP DB的SQL程序开发优化规范
1、批量数据处理后,无论成功与否,都应该进行vaccum analyze <table_name>.
2、对于大表的DISTINCT操作,请用 GROUP BY操作进行替代
3、对于大表的UNION操作,请用UNION ALL 加 group by进行改写
4、嵌套查询操作,尽量改写成连接查询操作
5、大表更新操作,尽量通过外连接+插入+truncate进行替代
6、大表删除操作,尽量通过外连接+插入+truncate进行替代
7、尽量避免进行存储过程函数嵌套导致锁冲突,考虑使用其它语言进行总体调度,比如shell,java,c等。
8、尽量避免在数据库中使用序列,游标, 循环,考虑对数据进行整体操作。
9、避免高度频繁的建表删表操作,容易造成字典破碎和字典锁的问题,因此可以通过临时表和其它语言方式替代。
11、检查大表的hash键定义是否可以保证每个segment存储均匀,数据处理均匀,以及大表连接操作过程中可以尽量避免motion操作。
12、为了加快开发进度,减少开发时的彼此影响,建议每个开发人员装一个gp虚拟机,相关表放入少量记录,进行单步测试。通过单步测试后,统一提交到测试服务器上进行联合测试和压力测试。
13、运行较大操作时,不建议使用pgadmin完成操作,建议写成shell脚本在后台进行测试。避免频繁不正常中断操作,对整个开发产生影响
尽可能使用压缩、按列存储
将视图替换成实际的表
将复杂查询拆分,利用中间表复用中间结果,一方面可以减少重复计算,节省IO, 另一方面也可以降低内存使用,提高效率。
2. GP DB的SQL程序开发优化规范
1、批量数据处理后,无论成功与否,都应该进行vaccum analyze <table_name>.
2、对于大表的DISTINCT操作,请用 GROUP BY操作进行替代
3、对于大表的UNION操作,请用UNION ALL 加 group by进行改写
4、嵌套查询操作,尽量改写成连接查询操作
5、大表更新操作,尽量通过外连接+插入+truncate进行替代
6、大表删除操作,尽量通过外连接+插入+truncate进行替代
7、尽量避免进行存储过程函数嵌套导致锁冲突,考虑使用其它语言进行总体调度,比如shell,java,c等。
8、尽量避免在数据库中使用序列,游标, 循环,考虑对数据进行整体操作。
9、避免高度频繁的建表删表操作,容易造成字典破碎和字典锁的问题,因此可以通过临时表和其它语言方式替代。
11、检查大表的hash键定义是否可以保证每个segment存储均匀,数据处理均匀,以及大表连接操作过程中可以尽量避免motion操作。
12、为了加快开发进度,减少开发时的彼此影响,建议每个开发人员装一个gp虚拟机,相关表放入少量记录,进行单步测试。通过单步测试后,统一提交到测试服务器上进行联合测试和压力测试。
13、运行较大操作时,不建议使用pgadmin完成操作,建议写成shell脚本在后台进行测试。避免频繁不正常中断操作,对整个开发产生影响
14、尽量避免不正常中断操作,如需不正常中断操作,请使用函数pg_cancel_backend函数,并耐心等待3~5分钟,再继续相关操作,避免造成数据字典破坏。