Linux内核奔溃分析

前言

最近遇到一个kernel奔溃的问题,错误日志开头一部分如下:

[  355.262451@0] Unhandled fault: external abort on non-linefetch (0x008) at 0xfe004328
[  355.264547@0] Internal error: : 8 [#1] PREEMPT SMP ARM
[  355.269632@0] Modules linked in: audio_data mali aml_thermal otz_client(O)
[  355.276449@0] CPU: 0 PID: 287 Comm: sh Tainted: G           O 3.10.33 #1
[  355.283088@0] task: d9356400 ti: da42a000 task.ti: da42a000
[  355.288616@0] PC is at dbg_do_command+0x214/0x550
[  355.293267@0] LR is at dbg_do_command+0x1ec/0x550
[  355.297924@0] pc : [<c002b694>]    lr : [<c002b66c>]    psr: 800b0113
[  355.297924@0] sp : da42bf00  ip : 00000030  fp : 00000000
[  355.309652@0] r10: dabe930c  r9 : da42bf80  r8 : fe004328
[  355.314999@0] r7 : 00000030  r6 : dac70680  r5 : 00000010  r4 : c090b4bc
[  355.321641@0] r3 : 00000000  r2 : fe004328  r1 : fe004328  r0 : fe004328
[  355.328283@0] Flags: Nzcv  IRQs on  FIQs on  Mode SVC_32  ISA ARM  Segment user
[  355.335528@0] Control: 10c5387d  Table: 1a62c04a  DAC: 00000015
[  355.341395@0]

对于没有debug经验的人来讲,这段东西其实看得是一头雾水。”external abort on non-linefetch“这是个什么错误呢?网上找到了一个参考链接:
http://www.it1352.com/230717.html

这个错误大概是因为试图读取未映射(通过MMU)的内存,按我的理解就是访问了非法的内存地址或者说这个内存地址根本不存在。不管怎么样,反汇编一下看看大概原因吧。

正文

1、

首先我们要反汇编一下vmlinux,命令如下:

arm-linux-gnueabihf-objdump -D vmlinux > vmlinux.dis

2、

再看一下错误日志的信息:

[  355.288616@0] PC is at dbg_do_command+0x214/0x550
[  355.293267@0] LR is at dbg_do_command+0x1ec/0x550
[  355.297924@0] pc : [<c002b694>]    lr : [<c002b66c>]    psr: 800b0113

内核是奔溃在dbg_do_command函数的0x214偏移处,也就是地址0xc002b694的地方,另外0x550是dbg_do_command函数的大小,这个我们暂且不用理会。而lr寄存器保存了返回的地址,也就是地址0xc002b66c。
我们用c002b694地址在vmlinux.dis里面搜索一下,得到以下结果:

...
c002b68c:   ea000083    b   c002b8a0 <dbg_do_command+0x420>
c002b690:   f57ff05f    dmb sy
c002b694:   e5903000    ldr r3, [r0]
c002b698:   e3570030    cmp r7, #48 ; 0x30
...

3、

从上面一步,我们可以看到出错的地方是一条读取指令:

ldr r3, [r0]

我们再看一下出错时候各寄存器的值:

[  355.297924@0] sp : da42bf00  ip : 00000030  fp : 00000000
[  355.309652@0] r10: dabe930c  r9 : da42bf80  r8 : fe004328
[  355.314999@0] r7 : 00000030  r6 : dac70680  r5 : 00000010  r4 : c090b4bc
[  355.321641@0] r3 : 00000000  r2 : fe004328  r1 : fe004328  r0 : fe004328

我们可以看到这时候,r0=fe004328,r3=00000000。r3寄存器没什么问题,那就是访问内存地址0xfe004328出现这个错误了。这个地址是芯片商FAE告诉我的,它是一个寄存器的地址,可以通过设置它来打开展频功能。我将这个错误反馈给他们,查实后原来他们给错地址值了,囧!所以当然是访问了非法地址咯。

结语

上面的分析是常规的流程,我也没啥经验,就当做给自己做个记录吧。也希望给遇到同样错误的同学提供一个思路方向。
 

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: Linux 系统的内核崩溃是指内核在运行过程中出现了无法处理的异常错误,导致系统无法继续运行。 要监控内核崩溃,可以使用以下方法: 1. 使用 dmesg 命令查看内核日志。在内核崩溃时,可以在 dmesg 输出的日志中看到崩溃信息。 2. 使用 kdump 工具记录内核崩溃信息。kdump 是一个用于在内核崩溃时自动生成内核崩溃转储(dump)文件的工具。这些文件包含了在内核崩溃时的内存状态,可以用于分析崩溃原因。 3. 使用 kprobes 工具在运行时追踪内核函数调用和返回。kprobes 可以帮助我们定位内核崩溃发生时调用的函数以及参数,有助于分析崩溃原因。 4. 使用 kgdb 工具在运行时调试内核。kgdb 可以让我们在内核崩溃时暂停运行,以便我们分析崩溃的原因和位置。 通过以上方法,我们就可以在 Linux 系统中监控内核崩溃并分析崩溃原因。 ### 回答2: 对于Linux内核崩溃的监控,可以采取以下几种方法。 首先,Linux内核崩溃常见的原因有内存错误、设备驱动错误、硬件故障等。因此,我们可以通过设置内核的panic参数来监控内核崩溃情况。Panic参数控制着内核在遇到严重错误时自动触发崩溃,并生成一个内核转储文件(也称为core dump),该文件可以用于分析崩溃原因。 其次,可以使用系统工具或第三方工具来监控内核崩溃。比如,在Linux系统中,可以使用dmesg命令查看系统的内核日志,检查是否有内核崩溃的相关信息。另外,一些监控工具如ELK Stack、Prometheus等也可以通过收集内核日志来实时监控内核崩溃情况。 此外,内核崩溃也可以通过内核oops(out of panic situation)来监控和分析。oops是Linux内核在遇到一些非致命错误时打印的错误信息,它可以提供有关内核崩溃的线索。我们可以通过系统日志(如/var/log/messages)或通过dmesg来查看和分析oops信息,从而得到内核崩溃的一些关键信息。 最后,为了更加深入地监控和分析内核崩溃,可以使用专业的调试工具,如GDB(GNU Debugger),通过attach到崩溃的内核进程来进行调试。使用GDB,可以定位到内核崩溃的具体位置和原因,以便进一步修复和优化。 综上所述,通过设置panic参数、使用系统工具或第三方工具、分析oops信息以及使用GDB等调试工具,可以监控和分析Linux内核的崩溃情况,从而及时发现问题并进行处理。 ### 回答3: Linux内核崩溃时,我们可以通过以下方法进行监控和调试。 1. 内核转储(Kernel Dump):当内核崩溃时,可以将内核转储保存在硬盘上,以便后续分析。可以通过设置合适的参数来配置内核转储,例如在/etc/kdump.conf中设置保存路径和大小等参数。转储文件保存后,可以使用工具如crash来分析转储文件,查找内核崩溃的原因。 2. 内核日志记录(Kernel Logging):内核崩溃时,可以将重要的信息输出到内核日志中。我们可以通过查看内核日志来了解崩溃的原因。内核日志一般保存在/var/log/messages或/var/log/kern.log中,可以使用工具如dmesg或journalctl来查看这些日志。 3. 监控工具:Linux提供了一些监控工具用于检测内核崩溃,例如SystemTap和kdump。SystemTap是一个强大的运行时跟踪和分析工具,可以实时监控系统状态和内核崩溃信息。kdump是一个用于处理内核崩溃的工具,当发生内核崩溃时,可以自动保存转储文件并触发重启。 4. 调试器和追踪工具:除了以上方法,我们还可以使用调试器和追踪工具来分析内核崩溃。调试器如gdb可以查看内核内部的数据结构和变量,以及调用堆栈信息。追踪工具如ftrace和perf可以跟踪内核函数的调用和性能信息,帮助我们定位内核崩溃的原因。 总之,通过以上方法,我们可以监控和调试Linux内核崩溃,找到崩溃原因并采取相应的解决措施。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值