1.问题出现

如上图,笔者在一年多前买到了一台DDN公司的存储服务器控制器,配置十分的豪华(3647CPU,支持第一代与第二代可拓展志强的正式版,qs与es,1U的空间,六通道内存,支持dcpmm,两条半高的Picex16riser,两个M2与一个ocp2.0x16的插槽,bmc支持h5 kvm),于是便把这台机器当做边缘服务器以及测试平台。然而,在上个月把Tesla T4插上这台机器后,机器的IPMI web页面就开始抽风了(如下图)

输入正确的账号密码进入web页面后,bmc就开始显示5条sever error encounter, 然后浏览器就会显示session expired, 然后就被重新定向到登陆界面。
在硬件方面尝试解决多次无果后,便想在软件上下功夫了。
2.ipmitool安装与开启
Ipmitool是一款功能强大的linux内置ipmi管理工具,提供了多种基于本地回环网络管理本机bmc的方法。本次仅展示如何在ubuntu20.04 desktop环境下的安装与调试。
首先安装ipmitool
sudo apt-gte install ipmitool
有选项时直接选择y即可

如果直接启动ipmitool,则会出现以下报错,这是由于部分ipmitool的服务与进城未被开启

需要首先进入root用户,然后依次开启进程
modprobe ipmi_si
modprobe ipmi_devintf
modprobe ipmi_poweroff
modprobe ipmi_watchdog
modprobe ipmi_msghandler
这时输入
lsmod | grep ipmi
则可得到如下结果,说明服务已经完全启动

然后需要输入
systemctl status ipmi
出现以下提示则说明启动成功

3.问题解决
由于先前已经尝试过重刷bios以及拔掉主板电池,于是我推测该问题应该是与bmc内部的日志缓存有关,于是首先重置bmc设置
ipmitool mc reset warm

然后进行清空bmc的缓存,
可以看到利用raw可以向主板bmc发送特殊指令

然后输入
ipmitool raw 0x32 0x66
输入过后,一段时间内bmc无法使用
稍等片刻后,可以看到已经恢复正常了
![]()
然后再进行SEL的擦除,输入
ipmitool sel clear

在一段时间的等待过后,可以看到bmc已经恢复正常状态

本文介绍了一台DDN公司存储服务器控制器在安装Tesla T4显卡后出现BMC异常重启的问题。通过重置BMC设置及清除日志缓存等步骤最终解决了问题。
1295

被折叠的 条评论
为什么被折叠?



