按照Linux系统的设计哲学,内核只提供dump内存的机制,用户想要dump什么样的内存,dump多少内存是属于策略问题,由用户来决定。
在真实的使用场景中,主要有两种使用方式:kdump和coredump
1.kdump:dump某一个进程的地址空间来供用户在进程挂掉之后debug分析。
2.coredump:dump整个系统的内存空间,以便于系统管理员debug分析系统挂掉的原因。
本文主要描述kdump
kdump整个过程依赖kexec和一个额外的dump内核来保证整个流程正确的执行。
kdump涉及的组件:
1.kdump专用内核,通过kexec工具load到预留的内存中,供故障引导使用。
2.kexec工具,负责加载crash内核,以及一些启动参数传递。
3.makedumpfile工具,负责将故障内核的内存copy,压缩,写入指定文件。
kdump的实现
kdump整个流程涉及到两次内核启动:
1.首先是工作内核启动,包括硬件自检初始化,BootLoader加载内核并发引导内核启动,然后配置预留内存,并使用kexec工具将crash内核加载到保留内存中。
2.工作内核在遇到故障触发panic之后启动crash kernel,kexec启动crash kernel只执行内核初始化逻辑,不再做硬件自检初始化,启动速度很快。
3.crash内核加载好之后可以正常管理一部分系统资源,通过/proc/vmcore内存镜像文件,将故障内存经过压缩之后写入到硬盘的dump文件中保存