(假设系统中至少已安装有grub或lilo程式,按错误可能发生的顺序,包括root帐号不
能正常登录的情况,写这个错误情况最初的目的是让自己有个大的概念,希望没有误人子
弟)
一、MBR错误:
由于意外原因,主引导记录被破坏,新手安装多操作时系统常发生先装linux再装windows
类系统后只能引导win的情况。这种情况下,grub.conf或lilo.conf正常,只需进入rescue
模式重安装一次MBR即可。
情况描述:只能进入win类系统或开机后BIOS自检通过后黑屏无所有提示
、引导程式错误
grub.conf或lilo.conf文件错误。修改了grub.conf或lilo.conf后,或硬盘物理位置和分区
发生变化后造成不能正常启动。进入rescue模式,修改grub.conf或lilo.conf即可。注意修
改了lilo.conf后需执行lilo命令(可加-v 参数查看周详信息)
情况描述:
(一)grub的一般情况
1、如果没有找到内核(vmlinuz-x.x.x文件),
  出现File not found
    Press any key to continue....
  说明root(hdx,x)错误,或内核文件名不对
2、如果找到内核后,运行一会,
  出现kernel Panic:Not init Found,
  一般来说是没有找到根分区(/分区)即root=/dev/xxx不对
3、如果找到内核后,运行一会,
  出现Kernel panic: VFS: Unable to mount root fs on ...,
  一般来说可能忘了加上initrd /initrd-2.4.21-4.EL.img(大多情况发生在使用scsi硬盘)
4、总的来说grub.conf里面必须存在的就几行。
#more grub.conf
title linux
root (hd0,1)                                        #/boot分区所在位置
kernel /vmlinuz-2.4.21-4.EL ro root=/dev/TEST/root 
                                                    #内核和根分区(/分区)位置
(根分区可能是LVM和raid,而不仅是hdx和sdx)
initrd /initrd-2.4.21-4.EL.img
平时练习grub.conf菜单文件的最佳办法是把这个文件删掉,每次重启时自己使用grub的
交互命令行就快就会对文件里面的内容熟悉。
(二)lilo的一般情况
lilo中没有找到内核文件或ramdisk文件(initrd-2.4.xx.x.ximg)出现的提示和grub中相同,
但如果是分区发生变化就会出现众所周知的L、LI、010101等错误。
lilo.conf中必须出现的几行。
p_w_picpath=/boot/vmlinuz-2.4.21-4.EL  #内核所在位置
label=linux            #等于grub中的title
root=/dev/sdc1                   #根分区所在位置
initrd=/boot/initrd-2.4.21-4.EL.img
注意如果lilo中不加boot=/dev/sdx,则运行lilo程式时,需加参数指明
lilo -b /dev/sdx
(三)综述
1、grub.conf文件设置错误能使用交互命令进入系统,而lilo.conf文件设置错误又没有
设delay值的话,连sigle模式都无法进入,只能用rescue修复。修改文件后发正常的重启
信号就行了,不用执行sync命令。
2、lilo.conf文件中基本上不管有没有/boot分区,而grub就要差别有无/boot分区,grub.conf
中root(hdx,x),如果有/boot分区,这个root就是指/boot分区,如果/boot只是作为一个目
录在根分区中(/分区),这个root(hdx,x)就是/分区的所在位置。
3、那麽:lilo.conf文件中的内核和根分区(/分区)的位置能不能象grub.conf这样写呢:
lilo:
p_w_picpath=/boot/vmlinuz-2.4.21-4.EL root=/dev/sdc1
grub:
kernel /vmlinuz-2.4.21-4.EL ro root=/dev/TEST/root 
结果lilo是无法找到/分区。
4、记住lilo.conf和grub.conf都有4行必须写,不同之处在于grub.conf中多了一行指明/boot
目录(注意不是/boot分区,而仅仅是/boot目录)所在分区的位置,而lilo.conf中把kernel
和根分区(/分区)拆行为两行。


***(/etc/initab还可能在后面发生错误)*****
(一)如果出现INIT: No inittab file found
    Enter runlevel:
一般来说就是inittab文件丢失或有错误。
(二)如果启动基本正常,到了
INIT:Entering runlevel: 3     (或 5)
后,就开始出现一系列错误,非常有可能/etc/inittab文件中
si::sysinit:/etc/rc.d/rc.sysinit 这一行发生错误
由于系统许多模块还没有初始化。
只能进入rescue模式,如果对inittab文件不非常熟悉的话,最佳把initscripts的rpm包重装
一次。默认的/etc/inittab文件应该能正常启动。

/etc/fstab文件错误(比/etc/inittab文件后出错)
(一)出现WARNING:coundn’t open /etc/fstab: No such file or directory
/etc/fstab文件丢失
/etc/fstab文件不属于所有rpm包,利用fdisk和e2label命令查看根分区(/分区)、/boot、/home、
/usr、/var分区(如果有这几个分区),然后编辑/etc/fstab文件,注意fstab文件的格式,如
果记不住,能查看帮助:如果未mount /分区,则先装载,如果/usr分区单列,装载/usr
分区。如果在rescue模式下则先chroot。
查找fstab的帮助文件:
1、直接man fstab
2、locate fstab
  你会发现有个叫fstab.5.gz的文件,一般在/usr/share/man/man5/fstab.5.gz
  能 man /usr/share/man/man5/fstab.5.gz
  或 zless /usr/share/man/man5/fstab.5.gz
3、rpm -ql mount | grep fstab 也能找到fstab的帮助文件
4、find / -iname "*fstab*"     最笨的办法
如果不是在rescue模式,修改fstab文件时出来Read-only file system咋办?重新装载成读
写模式
mount -o remount,rw /dev/sdax /
(二)mount 文件丢失或被替换
mount 文件错误会出现/proc文件相关错误,红字显示非常醒目,
此时比较麻烦,需进入rescue模式而不是进入输入root口令进行修改,因为根分区目前被
mount成只读(ro)模式,你没有mount命令来把根分区mount 成读写的(rw)。
(三)文件系统错误
1、使用fsck进行修复,郁闷的是无论出现什么提示只能选y,要不系统依然有问题。
2、可能文件系统的superblock有问题,把备份的恢复即可。(考试中这种情况几乎不可能)
fsck.ext3 -b (8192*n)+1
(四)raid或LVM错误
使用raid和lvm的知识进行修复,如果raid盘或lvm盘中没有数据,则可把/etc/fstab中提
到的/dev/mdx和/dev/xxxxxx/xxx相关的注释掉。怎么修复raid或lvm上的数据估计Redhat
是不会考的。
我在做实验时,发现RedHat Enterprise AS3的/etc/rc.sysinit有个小bug
如果我在做raid的基础上把raid做到LVM里面去,重启系统时,会报告出错。
例如:
1、编辑/etc/raidtab        #设一个任意级别的 md0
2、mkraid /dev/md0         #假设一切都正常,该raid则可使用了
3、pvcreate /dev/md0        #建立LVM的pv
4(方法一)、vgextend VGname /dev/md0            #把md0加到现有vg中
4(方法二)、vgcreate VGname /dev/md0 /dev/sdax  #新建一个vg
5、lvcreate -L 5G -n newlv VGname                #在VGname这个vg中建立一个5G
的名字newlv的lv
6、mkfs.ext3 /dev/VGname/newlv                  #格式化成ext3文件系统
7、把/dev/VGname/newlv加到/etc/fstab中
8、reboot
你会发现系统出错。原来/etc/rc.sysinit在启动raid时,是根据/etc/fstab这个文件来的,如
果/etc/fstab中没有以/dev/mdx开头行,则不启动/etc/raidtab中的md0、md1 .....,重启系统,
你会发现启动raid时有(skiped)的东东。如果这个raid是属于LVM中的一个pv,所以在
启动LVM的时候,也跟着出错。
临时办法倒是有:编辑/etc/rc.sysinit,因为在rc.sysinit文件中确定/etc/fstab中是否有raid是
用的grep命令:
INFSTAB=`LC_ALL=C grep -c "^$i" /etc/fstab`
其中INFSTAB是确定命令是否成功的变量,$i是/etc/raidtab 文件中的md0或md1...etc,
把$i前面的^去掉即可。
(五)quota设置错误
大不了把/etc/fstab中的usrquota和grpquota全部关闭。
FIXME:是否更有其他发生错误的可能?

***/etc/inittab文件错误***
系统反复重启或启动后就关机
设置了错误的runlevel,如0或6

偶的这篇短文中没有提到的地方可能有:
(一)网络设置错误
      ip addr netmask route gateway 大不了加上tc iptables ipchains 及相关的设置文件
(二)DNS解析错误
      大多在/etc/host.conf /etc/resolve.conf  /etc/hosts这些文件有关
(三)xwindow的桌面环境及主要的一次设置文件.xinitrc、XF86Config、/etc/X11/Xxxx目
录下面的
(四)磁盘分区,文件系统,swap分区相关
      这些最基本的知识都不知道?
(五)FIXME:其中diagnose and correct bootloader failures arising from bootloader, module, and
filesystem errors 偶没明白,bootloader中出错的地方,和那些module有关?
(六)诊断和修复其他daemon错误(就是各种网络服务啦),而根据RHCE and RHCT Exam
Preparation Guide提到的不外乎以下:
服务不能正常启动,最基本的调试方法是利用该服务自带的设置文件检测工具先检测一次,
然后再另开一个tty,执行
tail -f /var/log/message
同时到另一个tty启动该服务,观察输出的消息,具体情况具体分析。如果服务启动了不
能正常使用的话,注意iptables是否拒绝了客户端,客户端是否在pam、tcp_wrapper等其
他控制方式上被拒绝,同时也能观察/var/log/中的相关文件。
1、HTTP/HTTPS
  httpd -q 测试设置文件
2、SMB
  testparm 测试设置文件
3、NFS
  showmount -e localhost 看自己是否正常提供了exports
  rcpinfo -p localhost  看portmap 是否正常
4、FTP
  AS3目前自带vsftpd,设置非常简单
5、Web proxy
  AS3目前自带squid,如果只是要设置一个简单的带认证的web proxy,根据conf文件
修改非常简单
6、SMTP
  默认sendmail、也可使用postfix(网易就是用的这个)
7、IMAP, IMAPS, and POP3
  要简单使用,几乎不用设置。
8、SSH
  /etc/ssh/sshd_config,几乎每天都要用的东西
9、DNS
  named-checkconf  named-checkzone检查设置文件
  考试中虽然不能重装整个系统,但我想把该服务删掉重装应该的能的,所以说,如果
仅仅是要正常启动一个基本的网络服务程式,确实未找到问题所在,rpm -ivh --force
software.2.x.x.x.rpm
  
更有一些Redhat 的Preparation Guide中没有提到的服务:
10、ntp
  时间服务,要想简单设置也不困难/etc/ntp.conf
11、NIS
    这个不知为何没有提到,不过用ypserv做个简单的NIS认证也不难
12、inn
  新闻服务器,需要两个包inn和cnew,偶配好一个inn服务器后,用台win98登上去的
时候,心里是叨矛的激动啊,回想起97年的时候上新闻组心里真是莫名的高兴。
13、LDAP
  RHCE如果考LDAP的客户端认证还能接受,但如果要考LDAP的服务器应用,恐怕
不大可能。要设置一台最基本LDAP服务器让他启动不难,但具体应用,你到redhat的网
站去看,他们正在搞40x的培训,专门针对LDAP的。
网络服务调度中有个工具非常有用,telnet,别看网站到处说telnet不安全,没用了,但你
查看服务器是否正常运行的时候,telnet功能强大。
网络服务出错是千变万化,每一个服务的具体分析诊断能出几十上百本书,我想redhat
不会考得那么难。这时最有用的词还是:具体问题具体分析。


如果服务基本已启动完毕却出现***
INIT: no more processes left in this runlevel
可能是没有程式守护 tty1或tty2…………等,即/etc/inittab文件中少了
1:2345:respawn:/sbin/mingetty tty1
2:2345:respawn:/sbin/mingetty tty2
等等
出现这种情况,如果不大明白//etc/inittab的格式,强制重装initscripts的rpm包即可
  #######################
#                      #
####################### #
#                    # #
#  八、xwindow错误    # #
#                    ##
#######################
一般来说和/etc/X11/XF86config文件有关,考试中不可能涉及硬盘问题。
运行redhat-config-xfree86一般都能解决,可能发生的问题较多,普通点的就是刷新率,显
示模式如800x600等。
********************
*  第三次修改补充
********************
桌面环境设置错误?用过windows系统应该能轻易上手。
  #######################
#                      #
####################### #
#                    # #
# 九、root不能正常登录# #
#                    ##
#######################
********密码及PAM相关*******
(一)出现Login incorrect 多半和密码相关
1、的确是密码错误 单用户模式修改
2、root用户被锁  单用户模式 usermod -U root 即可
3、没有root用户,即没有uid为0的用户
4、/etc/securetty文件中没有tty*(*表示1,2,3,4等)
(二)输入用户名和密码后,只见屏幕一闪,,那多半和authconfig、pam有关了
1、三轮车夫同志遇见的。authconfig时,选了ldap认证,后来ldap服务器的地址变了后,
就无法登录。
   解决办法:运行 authconfig取消该选项。
2、/etc/pam.d/system-auth中添加了
   account required /lib/security/$ISA/pam_access.so
   或其他类似的pam模式限制,如pam_listfile.so、pam_time.so等。
  解决办法同上,运行authconfig后会自动删掉。
3、/etc/pam.d/login中添加了
   account required /lib/security/$ISA/pam_access.so
   或其他类似的pam模式限制,如pam_listfile.so、pam_time.so等。
  解决办法:只有手工去查看login文件,运行authconfig后不会自动取消。
4、/etc/pam.d/  目录中的system-auth 或login中的模块文件名有误。
  模块文件名错误同样会使系统无法登录。
  建议发生无法登录的情况时,到单用户或rescue模式,首先查看/var/log/secure 和
message文件。
****************************************************************
**********************关于第二点的说明**************************
****************************************************************
  #######################
#                      #
####################### #
#                    # #
#  二(2)、/initrd目录 # #
#                    ##
#######################
该问题困扰了整个下午。从头说起:
中午在linuxsir.org的论坛上发现一位叫Proarfei的发了个贴子,内容如下:
---------------------------发贴内容--------------------------------
RHAS3-请求帮助!
安装RHAS3时非常顺利,由于是双系统,而且我希望是ntldr做主启动程式,所以我选择了
GRUB安装位置在引导分区的第一扇区,但非常奇怪的是,AS在安装完成处没有提示创建
引导盘,在RH9中是有这一步的,我在查询AS3的安装说明中也没有这步骤,但在说明
GRUB设置时说能创建引导在别的盘上,我不是非常清晰AS3是怎么创建引导程式在软盘
上的,请各位高手指点一二。
---------------------------发帖结束--------------------------------
AS3中的确没有创建引导盘这一步,当时我不明白Proarfei究竟是想用软盘引导还是想在
ntldr中引导linux,于是回贴如下:
---------------------------回帖内容--------------------------------
如果想用软盘启动linux和grub无关。
制作引导盘
mkbootdisk `uname -r`
如果想在nt启动菜单选择启动
ntldr是由设置文件boot.ini提供工作参数的,该文件位于视窗系统 XP系统分区的根目录下,
具有隐藏、系统、只读属性。我们只需要将Red Hat Linux的引导记录作为一个文件备份到
C盘的根目录下,并相应地在boot.ini文件里添加一个项目来指向他们,就能实现双重系
统了。
参见:
http://tech.ccidnet.com/pub/article/c738_a79178_p1.html
----------------------------回帖结束------------------------------
由于平时从来没有用过mkbookdisk做过系统盘,不知是否有效,于是自己顺便做个实验,
以免乱说误人子弟。谁知道偶在AS3上用这个命令做盘时,显示:
[root@blueflybird root]# mkbootdisk  --device /dev/fd0 `uname -r`
Insert a disk in /dev/fd0. Any information on the disk will be lost.
Press  to continue or ^C to abort:
cp: writing `/tmp/mkbootdisk.MPg6Cy/initrd.img’: No space left on device
cat: write error: No space left on device
cat: write error: No space left on device
20+0 records in
20+0 records out
靠,空间不足,而且还不说到底是哪个盘的空间不足,整得我连忙用df查看。
结果毕竟还是做好了引导盘(只是不能使用该盘正常启动)
而此时偶又想起,如果Proarfei同志只是要引导linux,把lilo或grub安装到软盘上也行啊,
根本不用mkbookdisk做系统盘。等到论坛上回完贴,心里非常不爽,为什么偶用mkbookdisk
做的盘就不能启动呢?
忽然偶又想起(偶已想起了非常多次什么东东了),是不是偶用的scsi硬盘造成ramdisk太
大的原因哦,管他三七二十二,还是二十三,去找个IDE盘接上,把scsi中的文件复制到
ide中
cp -a /bin /sbin /var /lib /etc /boot /dev /usr /IDE/
由于根分区中的/root区内编译2.6的内核也占了1G,所以/root /tmp /proc 几个区就自己建
了,swap,暂时不用吧
象/mnt /home  /misc 目前对我来说毫无价值,懒得管他,这样拷了好久(幸亏更有笔记本
能用)。
终于拷完,把grub也装上,卸下scsi盘,再把IDE放到第一个位置,reboot
从SCSI开始出错。
---------------------------屏幕结束--------------------------------
/lib/BusLogic.o:init_module:
Hint: insmod errors can be caused by incorrect module parameters, including invalid IO or IRQ
parameters.
      you may find more information in syslog or the output from dmesg
ERROR:/bin/insmod exited abnormally!
.
.
调ext3.o module正常
.
.
Mounting root filesystem 正常
.
.
pivortroot:pivot_root(/sysroot,/sysroot/initrd)failed: 2
umount /initrd/proc failed: 2
Freeing unused kernel memory: 164k freed
Kernel panic: No init found. Try passing init= option to kernel
---------------------------显示结束--------------------------------
以后的事让我越来越不爽,甚至变得气急败坏,许多的事反反复复做了许多遍。
一、拆下IDE,装上SCSI
二、拆下SCSI,装上IDE
三、看/var/log/dmesg,反复拆,反复看,里面屁都没有一个最新的
四、mkinitrd /boot/initrd.2.4.x.x.xEl `uname -r`
五、加参数--omit-scsi-modules
六、加参数--omit-raid-modules
七、加参数--omit-lvm-modules
八、试用各种组合方式
九、重新回想系统启动的顺序
十、IDE和SCSI整在一起,考文件,拷了删,再删了拷
十一、差点就准备用dd
十二、发狂中
十三、看电视、胃痛
十四、启动时向内核加参数init=/bin/sh、加1。
十五、用带scsi-modules 的ramdisk和不带scsi-modules 的ramdisk
十六、明明知道本来许多无关的情况,都尽量试试关掉再打开。
十七、再重新回想系统启动的顺序
怎么会想得到和/initrd 这个目录有关系?????正绝望中看到
umount /initrd/proc failed: 2
心想总不可能和/initrd有关系吧,管******的,试了再说。
好了,进入rescue建立/initrd目录后,******的一切正常了。
然后制作了一个不带scsi、raid、lvm的ramdisk,initrd.2.4..x.x.x.img的尺寸小了一大半,
重启也正常,再用
[root@blueflybird root]# mkbootdisk  `uname -r`
一切非常正常,也能正常用该软盘启动。说明ramdisk调用的模块多了后可能无法建系
统盘。