检查硬件错误

红帽企业 Linux 7 引入了新的硬件事件报告机制 (HERM.) 这种机制收集系统报告的内存错误,以及错误检测和更正 (EDAC)机制报告的错误,用于双行内存模块(DIMM),并将它们报告给用户空间。用户空间守护进程 rasdaemon 捕获和处理来自内核追踪机制的所有 可靠性、可用性和可维护性 (RAS)错误事件,并记录它们。以前由 edac-utils 提供的函数现在由 rasdaemon 替代。
要安装 install rasdaemon,以 root 用户身份输入以下命令:
~]# yum install rasdaemon

按如下所示启动服务:
~]# systemctl start rasdaemon
要使服务在系统启动时运行,请输入以下命令:
~]# systemctl enable rasdaemon
The ras-mc-ctl 实用程序提供了一种使用 EDAC 驱动程序的方法。输入以下命令查看命令选项列表:

~]$ ras-mc-ctl --help
Usage: ras-mc-ctl [OPTIONS...]
--quiet Quiet operation.
--mainboard Print mainboard vendor and model for this hardware.
--status Print status of EDAC drivers.
output truncated

要查看内存控制器事件摘要,以 root 用户身份运行:
~]# ras-mc-ctl --summary
Memory controller events summary:
Corrected on DIMM Label(s): 'CPU_SrcID#0_Ha#0_Chan#0_DIMM#0' location: 0:0:0:-1
errors: 1
No PCIe AER errors.
No Extlog errors.
MCE records summary:
1 MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error errors
2 No Error errors

要查看内存控制器报告的错误列表,以 root 用户身份运行:

~]# ras-mc-ctl --errors
Memory controller events:
1 3172-02-17 00:47:01 -0500 1 Corrected error(s): memory read error at
CPU_SrcID#0_Ha#0_Chan#0_DIMM#0 location: 0:0:0:-1, addr 65928, grain 7, syndrome 0
area:DRAM err_code:0001:0090 socket:0 ha:0 channel_mask:1 rank:0
No PCIe AER errors.
No Extlog errors.
MCE events:
1 3171-11-09 06:20:21 -0500 error: MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction:
Memory read error, mcg mcgstatus=0, mci Corrected_error, n_errors=1, mcgcap=0x01000c16,
status=0x8c00004000010090, addr=0x1018893000, misc=0x15020a086, walltime=0x57e96780,
cpuid=0x00050663, bank=0x00000007
2 3205-06-22 00:13:41 -0400 error: No Error, mcg mcgstatus=0, mci Corrected_error
Error_enabled, mcgcap=0x01000c16, status=0x9400000000000000, addr=0x0000abcd,
walltime=0x57e967ea, cpuid=0x00050663, bank=0x00000001
3 3205-06-22 00:13:41 -0400 error: No Error, mcg mcgstatus=0, mci Corrected_error
Error_enabled, mcgcap=0x01000c16, status=0x9400000000000000, addr=0x00001234,
walltime=0x57e967ea, cpu=0x00000001, cpuid=0x00050663, apicid=0x00000002,
bank=0x00000002

这些命令在 ras-mc-ctl(8)man page 中进行了说明。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
STM32是一种强大的单片机系列,它集成了丰富的硬件资源和性能强大的处理能力。但在开发过程中,有时会遇到硬件错误,需要进行排查和解决。下面是一些常见的STM32硬件错误排查方法: 1.检查硬件连线:首先,检查STM32芯片与外部电路之间的连接,确保连接线和插头没有松动或损坏。同时,查看开发板上的跳线是否正确设置,并确保电源和地线连接正常。 2.使用示波器进行信号监测:使用示波器测量STM32芯片输出引脚的信号波形。若没有输出或波形失真,说明可能存在硬件问题。可以逐个排查引脚,检查电源供应、传感器和驱动器等外设电路。 3.检查时钟源:STM32芯片的时钟源非常重要,它们直接影响到系统的稳定性和性能。检查时钟源设置是否正确,包括外部和内部时钟源的选择、频率设置是否正确。有时候,时钟设置不当会导致系统无法正常工作或出现异常运行。 4.查阅芯片数据手册:芯片厂商提供的数据手册是硬件设计和问题排查的重要参考资料。仔细阅读芯片数据手册中的电气特性、引脚功能、时序图等章节,了解芯片性能与限制,以便更好地定位问题。 5.使用调试工具:STM32系列芯片内置了调试接口(如SWD或JTAG),可以使用调试工具进行硬件错误的排查和分析。常见的调试工具如ST-Link、J-Link等,可以用来观察芯片内部寄存器的状态、程序运行状态,以及与外部设备的交互情况。 通过以上的方法,可以有效地进行STM32硬件错误排查。当遇到硬件问题时,及时处理和解决,确保系统的稳定性和正常运行。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

太极淘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值