1、关闭irq,并设置开机不启动
systemctl stop irqbalance.service
systemctl disable irqbalance.service
2、设置看门狗时间
echo 30 >/proc/sys/kernel/watchdog_thresh
3、驱动拉黑nouveau和GSP
- 拉黑nouveau
echo -e
'blacklist nouveau \noptions nouveau modeset=0\n'>/etc/modprobe.d/blacklist.conf
- 拉黑GSP
echo 'options nvidia NVreg_EnableGpuFirmware=0' > /etc/modprobe.d/nvidia-gsp.conf
4、GPU卡状态开启持久模式
nvidia-smi -pm 1 (当服务器上安装gpu卡大于等于4张,需要开启持久模式,单次生效,重启失效,建议加入到开机启动项rc.local中)
5、操作系统建议优化设置
可以在BIOS下或者系统下设置CPU状态,BIOS和系统下二选一即可。
服务器BIOS配置
BIOS→Socket Configuration→Processor Configuration→Hyper-Threading----Disable
BIOS→Socket Configuration→Processor Configuration→VMX----Disable
操作系统下:
(单次生效,重启失效,建议加入到开机启动项rc.local中)
设置所有CPU为性能模式:
cpupower -c all frequency-set -g performance
查看当前生效的策略,如果为Performance代表为性能状态cat
/sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
可以使用cpupower monitor查看CPU频率状态
BIOS下配置:
BIOS---Socket Configuration---Advanced Power Management Configuration---CPU P State Control
SpeedStep(Pstates)---Enable
Turbo Ratio Boost---Enable
Turbo Mode---Enable
BIOS---Socket Configuration---Advanced Power Management Configuration---CPU C State Control
Autonomous Core C-State---Disabled
CPU C6 report---Disabled
Enhanced Halt State(C1E)---Disabled
Monitor/Mwait---Disabled
6、GPU卡ECC模式下Pending状态检查设置
以T4卡为例
使用以下命令检查GPU卡ECC的模式状态,正常Pending都是Enabled的状态
nvidia-smi -q | grep -i pending
如果不是Enabled,可以使用nvidia-smi -e 1设置为Enabled状态,如果未能设置,请重启机器后重试,或者GPU卡已经损坏,需要更换GPU卡。
如下图不是Enabled状态,执行后已经设置成Enabled状态
7、GPU卡ECC错误Volatile和Aggregate计数清除步骤
以T4卡为例
使用以下命令检查GPU卡ECC数量情况,正常计数都显示为0
nvidia-smi -q | grep -A 4 -iE 'Volatile|ECC|Aggregate'
如果Volatile和Aggregate数量不为0,可以使用以下命令清除掉
清理Volatile
nvidia-smi -p 0
Aggregate
nvidia-smi -p 1
清理后恢复正常