近期对某项目性能测试时,遇到一个服务器磁盘方面的性能问题,分享下定位、分析思路。
在进行场景压测过程中,发现服务器磁盘util较高,如下图:
1、磁盘IO监控命令:iostat -d -x 5
2、查看占用IO资源较高的详细进程
执行命令:iotop
3、发现 IO占用较高的是 postgres special_machine_audit 127.0.0.1(33966) PARSE这项。
于是到Postgresql库中查看special_machine_audit 此表,发现表索引大小几乎是表大小的10多倍。
于是查看表索引。
分析:
经与研发了解:产品需求里日志要全文检索,所以对日志所有字段值建立gin索引。全文检索采用的pg数据的gin倒排索引,类似于搜索引擎,这个索引机制决定了会占用较大的磁盘空间来索引全部数据,用空间换检索时间,因而会产生较大的磁盘IO,尤其是这种单机情况,进而出现以上性能问题。
总结:遇到服务器资源异常情况后,需要一步步排查,由表及里,层层定位。排查思路占主导,监控工具只是一个辅助排查手段。