背景
2019年9月11日凌晨开始,sas应用访问nas(网络存储设备)性能变慢,多个部门反馈读取SAS共享存储的SAS数据集的时间是平时好几倍,原先每日不到一小时的日跑批报表今天跑了3个多小时,即访问nas性能变慢。
问题分析
sas应用ip分为两个网段,IP1.*和IP2.*。架构如下图所示:
根据初步分析,我们观察到了如下几个现象:
- 通过ll、df -h读取nas数据,184*需要数十秒至半分钟时间返回nas的挂载点信息;而187.137、187.138在2s内返回,同网段的87.139返回时间在5s左右;
- 184.*几台服务器上挂载了不同的nas,读取其他nas设备数据速度正常,单单读取nas设备数据速度慢;
- 选择一台184.*服务器,卸载掉nas挂载点,再重新挂载,发现读取速度依然很慢,重新挂载没有改善读取速度。
- ping nas,184.*服务器返回时间在1~2ms左右,而187.*服务器返回时间在0.2ms内,两者相差10倍;
由此推测:
1、184.*服务器内核参数没有问题,因为读取其他nas设备速度正常;那么可能的情况就是,184.*服务器与nas网络之间可能存在问题。
2、187.139和187.137、187.138在同一网段内,但读取nas速度却较另外两台低,是否先前就是这样,刚刚发现,还是另有原因?
问题定位
1、测试每台服务器读取nas的网络速度
通过dd读取nas盘上27GB大小的文件
dd if=sas_cbacct_atpt_20190726.sas7bdat of=/dev/null
788352+0 records in
788352+0 records out
403636224 bytes (404 MB) copied, 2.68865 s, 150 MB/s
服务器 |
dd速度 |
187.137 |
150MB/s |
187.138 |
180MB/s |
187.139 |
83MB/s |
184.140 |
39.8 MB/s |