1测试环境
1.1硬件环境
CPU内存数据盘
2路Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40GHz 共24个逻辑核64G2T sata*8
1.2软件环境
操作系统:Red Hat Enterprise Linux Server release 7.4 (Maipo) 内核:3.10.0-693.el7.x86_64
PG:PostgreSQL 10.6
1.3测试表
基础表结构:
CREATE TABLE test (
a varchar(64),
b varchar(64),
c varchar(64),
d varchar(64),
e varchar(64),
f varchar(64),
g varchar(64),
h varchar(64),
i varchar(64),
j varchar(64),
k varchar(64),
l TIMESTAMP
) ;
索引:
create index idx_1 on test(a);
create index idx_2 on test(b);
create index idx_3 on test(f);
create index idx_4 on test(i);
create index idx_5 on test(l);
数据样例:
9dfdd3a8-b65a-4705-a0ff-daf1819861d21111111111111111111阿大13888888888陕H11111546687257794821460073102018579a7:8e:c5:d3:2d:6c4212922510T1n5C90112162018-10-08 10:55:47
2入库性能
2.1总体结果
使用copy命令入库,每个文件1000W条,行长约180B。分别测试无索引、1个索引、3个索引、5个索引的导入性能。
2.1.1测试结果
表中存量数据(千万)012345678910111213141516171819
no index2222222322232522252223222222222223232323
1 index(raid0*8)61797172741247678156781301297920280221209113247259
3 index(raid0*8)153214182275192324192362390419562121419142539328341694548500054638309
5 index(raid0*8)22622532725538743046798926002670295827863452426464821123619992
3 index(单盘)136176185223177363202321207341309563329504
5 index(单盘)185264282335242376419456355211663
续:
表中存量数据(千万)2021222324252627282930313233343536
no index2222222222222322222223232322232223
1 index(raid0*8)271389396509567719875103697410161435158419731860207921187809
2.1.2总结
索引对PG导入性能影响非常大。
在表数据量到达拐点之后(根据索引数及磁盘IO能力决定,即使只有1个索引),导入时间呈指数级增长。
更好的磁盘IO只能延缓拐点的到来,无法避免性能急剧降低。
根据上述实验结果,单表的数据量在小于7000W时,导入性能略有下降,但基本还算稳定。所以建议:实际使用时如果索引小于等于5个,单表数据量大于5000W条就必须采取如分区、分库、分表等措施,同时每个分区也不得超过5000W。
如果索引大于5个,优先考虑降低索引个数,如过实在不能降低,则单个分区数据量不得大于2000W条。