ECS错误排查
Linux启动与登录问题
Linux 启动与登录问题是 ECS 的高频问题,而往往处理不及时会直接影响到 用户业务的正常可持续运行,因此也变成了我们处理问题优先级的重中之重。在云环境上影响 ECS 启动与登录的因素非常多,镜像、管控、虚拟化、底层 硬件、系统与文件异常等等,本文仅从系统与文件本身角度,在大量处理经验 的基础上,归纳总结了一些可能会引起系统启动与登录问题的排查点,并给出 几个比较常见的典型案例来具体展示和说明。
系统启动异常
1.部分 CentOS 系统启动黑屏,无异常报错的场景,可以 fsck 一下系统盘。
2.根分区空间满,以及 inode 数量耗尽。
3.升级内核或者从老的共享实例迁移到独享规格导致的启动异常。
3.1 手动注入驱动 (mkinitrd virtio 相关驱动 )。
3.2 修改 grub 的启动顺序,优先尝试使用老内核启动。
3.3 /boot 目录下面内核的关联文件是否全(下面仅为 demo,不同系统内核版
本文件不一致,部分内核版本 boot 下的 i386 目录也是有用的)。
3.4 /boot/grub/device.map 里面的 hda 改成 vda。
4.fstab/grub 中的 uuid 不对,可以直接修改为 /dev/vda1 这种形式尝试。
数据盘分区异常加载起不来的场景,可以去注释 fstab 所有的行,添加类似下面
的启动项尝试,也适用于系统盘快照创建云盘挂载后,uuid 一致导致的启动异
常,改成非 UUID 的挂载即可。