Native Linux的MCE基本原理和处理函数入口(基于kernel 4.2.0+ )


在老的Intel处理器上,当硬件检测到错误后,就会对系统的每个逻辑CPU广播MCE. 这样设计是因为硬件上的缺陷,因为原来的处理器当发现了错误(如内存错误),是会随着pipeline流到任意的不可预测的CPU上去,导致系统的问题.基于这样的硬件设计问题,就产生了将MCE广播到整个系统所有CPU上去的策略,保证所有的CPU在发生错误的时候,同时陷入异常处理流程指导异常处理完成.这样的消耗其实在多socket的情况下是很大的.这在后期的Intel处理器上得意解决,我在后面的博客里面再做介绍.
关于MCE请参考我的博客 << Intel处理器中断18 - Machine-Check Exception (#MC)介绍 >>

CPU收到MCE后,如果是本CPU产生的异常,那么就进入到int 18的处理流程;如果不是本CPU产生的异常,那么CPU进入忙等流程指导这个异常处理完毕.注意,这个异常是同步的,也就是说,当产生异常后,所有的CPU都会马上进入异常处理,不会有任何的延迟和等待. 这个CPU忙等直到异常处理完毕的过程叫做CPU集合

在Native Linux上,MCE的文件是arch/x86/kernel/cpu/mcheck/mce.c.
核心处理函数为: do_machine_check, 这个就是int 18的处理函数
在do_machine_check中会调用mce_start来进行CPU的集合
在mce_start中,如果不是本CPU,调用ndelay(SPINUNIT);进入忙等;如果是本CPU则从mce_start返回do_machine_check中进行处理
在do_machine_check后面,会进行错误severity等级的分级,如果很紧急,那么直接在内核调用memory_failure来进行处理;如果不是很紧急,可以delay,那么就会通过置位一个标志位,然后通过notify通知.对于delay的,切换到进程上下文后,发现表职位,通过notfiy,处理函数为srao_decode_notifier , 然后调用memory_failure进行处理.
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值