作者简介:田磊磊 PostgreSQL、Greenplum高级数据库工程师,熟悉PG技术栈,对OLTP/OLAP均有深入实操经验,目前就职于哈啰出行,维护着国内最大的PG集群之一,超过400个PG实例。微信号:TLL-PostgreSQL-MySQL
背景
哈啰出行旗下包括哈啰单车、助力车、顺风车、打车、电动车、换电等几乎所有业务都基于PostgreSQL数据库构建,PostgreSQL的安全、稳定、高效为哈啰出行的上亿用户提供了强大的基础。随着时间的推移,表里的数据量越来越大,有些需要分库分表处理,有些可以通过简单的分区处理即可,表分区有很多好处:
1):只vacuum 最近分区子表而不是vacuum大表,降低io消耗,减少表膨胀。
2):方便维护表,如创建索引耗时更短,通过清理历史分区释放磁盘空间。
3):减少数据扫描等
01
测试目的
1)测试pg_pathman、native、inherit分区表和不分区表的QPS/TPS性能;2)对比:压测索引键+分区键(有索引)查询/插入方式的QPS/TPS、CPU利用率;02
测试说明
PG实例信息:实例ID:i-bp15xu7930bhkq3urjwm, PG10, 4C8GB。主表下有20个分区表,按月分区,总数据量均为5612.5504万,均匀分布在各分区。查询的对应时间段月分区的的数据量为280万。4个和10个并发压测,压测脚本:/usr/pgsql-10/bin/pgbench -f select/insert.sql -c 4/10 -j 4/10 -n -P 10 -r -T 300/180 -R 10000 -p 7474 -d postgres -U postgres -h locahost
03
测试CASE
04
测试结论
1,在5612.5504万数据量,20个分区情况下select的结论:
1)不分区表相比分区表性能更高,占用cpu更低,qps更高。
2)分区表之间对比,qps相差不多的情况下,pathman分区方式占用cpu更低,10并发下native和inherits占用cpu超过90%以上。
2,在5612.5504万数据量,20个分区情况下insert的结论:
1)不分区表相比分区表性能更高,占用cpu更低,tps较高。
2)分区表之间对比,tps性能相差不多的情况下,pathman分区方式占用cpu更低,native和inherits占用cpu都大于pathman方式。
select记录(取三次执行记录的平均数,每次执行时间5分钟): insert记录(取二次执行记录的平均数,每次执行时间3分钟):05
测试环境硬件配置信息
CPU:
postgres@VECS04164:~$ cat /proc/cpuinfo | grep "model name"model name : Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHzmodel name : Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHzmodel name : Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHzmodel name : Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
内存:
postgres@VECS04164:~$ cat /proc/meminfo | grep -i totalMemTotal: 8193156 kBSwapTotal: 0 kBVmallocTotal: 34359738367 kBHugePages_Total: 0
操作系统版本:
postgres@VECS04164:~$ cat /etc/redhat-releaseCentOS release 6.9 (Final)
需要提前安装好pg_pathman插件:
下载地址:https://download.postgresql.org/pub/repos/yum/10/redhat/rhel-6.9-x86_64/
需要两个rpm包:
pg_pathman10-1.4.13-1.rhel6.x86_64.rpmpython-psycopg2-2.7.4-1.rhel6.x86_64.rpm