linux内核中取消ecc配置,如何在Linux中收到ECC错误的通知?

Linux kernel supports一些芯片组的错误检测和纠正(

EDAC)功能.在支持的

ECC系统上,可以通过sysfs访问内存控制器的状态:

/sys/devices/system/edac/mc

该位置下的目录树应与您的硬件相对应,例如:

/sys/devices/system/edac/mc/mc0/csrow2/power

/sys/devices/system/edac/mc/mc0/csrow0/power

/sys/devices/system/edac/mc/mc0/dimm2/power

/sys/devices/system/edac/mc/mc0/dimm0/power

/sys/devices/system/edac/mc/mc1/power

...

根据您的硬件,您可能必须明确加载正确的edac驱动程序,参见:

find /lib/modules/$(uname -r) -name '*edac*'

edac-utils package提供了一个命令行前端和一个用于访问该数据的库,例如:

edac-util -rfull

mc0:csrow0:mc#0memory#0:CE:0

mc0:csrow2:mc#0memory#2:CE:0

mc0:noinfo:all:UE:0

mc0:noinfo:all:CE:0

mc1:noinfo:all:UE:0

mc1:noinfo:all:CE:0

您可以设置某种定期调用eac-util的cron-job,并将结果提供给监控系统,然后您可以在其中配置一些通知.

除此之外,运行mcelog通常是一个好主意.取决于系统,但不可纠正/可纠正的ECC错误也可能被报告为机器检查异常(MCE).我的意思是,即使由于温度较高而短暂的cpu节流也被报告为MCE.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值