成功是每个人都渴望得到的,但是只有读懂失败的意义才能更好把握成功
心得:作为一个成熟的运维工程师,首先要考虑的是保证服务器或服务的正常运转。在故障发生时要有良好的备份或者应急机制,运维人员要有清醒理智的头脑,保障服务器或服务的不间断工作。所以在工作中遇到故障首先要考虑的是直接有效的方法去排除故障,很多时候要直接考虑重建,然后恢复。比如在一台机器出现蓝屏的时候,平常先要做的是排除硬件,驱动,系统,或者其他软件故障等(这也是运维工程师和一般PC主机维护的区别吧),如果内存没有什么问题就会直接考虑重装系统,而不去考虑到底是驱动、系统文件或其他导致的蓝屏。在这里最直接最有效的方法就是重装。但是说回来了,如果想让自己心里踏实点的话最好对硬盘进行检测或者做好更安全的备份机制。
作为一个新来的或者是刚入职场的人来说,首先要考虑接受的建议不要是自己的,考虑“前辈”“上司”的建议最重要,无论他们说的对与错。原因很多种比如自己的经验不足,或不知为了解决技术问题而去“破坏”同时或领导之间的关系。没有十足的把握一定要听听他们的建议,或者等到他们的建议没有用的时候才要去验证自己的想法。很多时候技术能力只能排除故障,却得不到好的结果,所以处理好关系比排除故障重要。领导要看你的结果不去在乎过程,别人一天完成的事情你一个星期完成了就证明你的效率低或者是能力低。
作为一个合格的运维人员一定要懂得如何建立有效的备份和应急机制。备份和应急机制要建立完整并且是有效的,定期要验证备份的数据可用性和恢复的差异性,重新搭建和假设系统崩溃或者是更换硬件等来验证备份的数据是否可以还原到当前状态,数据是否和当前的数据存在差异。或者从硬件考虑系统安装在服务器上,数据存放在阵列柜中,更或者是两台机器做热备等。定期验证才是防患于未然。
问题描述:一台AD域机器发现机器走完server2003的进度条,该显示桌面的时候突然蓝屏了再重启还是重复着这个过程,这个是主域机器,磁盘使用raid1模式,主板是超微 PDSML LN1+。这个主域有每个月system status的backup备份。
故障排除思路:首先要考虑的是磁盘里的数据必须拷贝出来,接着排除蓝屏不是硬件的问题,其次看安全模式可以使用吗?把显卡驱动卸掉。如果不行试着使用03的安装盘进行安装系统时修复功能。如果还不行就只能重装系统,然后使用system status的backup来还原AD的数据。最后不行就可以考虑使用备份的域来自动同步复制AD的数据了。如果还不行就要考虑是否把AD的sam账户信息拷贝…………。
验证步骤:
1、先把内存条全部拔下来,用酒精或橡皮擦擦擦内存条的金手指,然后只装一条。还是蓝屏。
2、使用PE系统看能否进入PE系统。可以进入PE。说明除了硬盘之外的硬件没多大问题。单数PE系统里看不到其他盘,提示I/O出错,数据无法拷贝出来。也许与raid1有关。
3、把两块硬盘的电源线都拔下来插上其中任何一个硬盘,结果和之前一样仍然蓝屏。不是raid的问题。也可以间接的排除硬盘的可能性不大。
4、再使用PE系统,加上刚才的其中一块硬盘还是找不到数据依然提示I/O出错。可以先排除raid1
5、这个时候把两块硬盘都装上试着进入安全模式或安全模式的其他模式,结果安全模式也是蓝屏,使用单块硬盘进入安全模式还是蓝屏。
6、使用一块或两块硬盘进入03的安装界面进行修复,均在检查磁盘时卡住了无法完成修复
7、拿来一块新硬盘,直挂这块新硬盘看能否找到硬盘且能否安系统,验证成功。
8、再添加一块新硬盘,重新把这两块新硬盘重新划分raid1模式,重新安装03系统,结果在安装时候提示无法找到硬盘。一般遇到这个提示时我们都会考虑是否硬盘出问题了,之后我有重新启动,在开始启动时候能检测到这两个硬盘,说明这两个硬盘没有问题,在考虑raid1,这个主板使用ctrl+i或者是l组合进入raid设置模式,显示正常。之后想不通为什么还是提示找不到硬盘。随后想起之前在安装hp的G8的时候也是这样的提示,才明白应该是raid1的驱动问题。拿来centos的光盘使用raid1模式安装可以找到硬盘并分区,这个充分说明没有raid1的驱动。
9、找不到raid1的驱动,无法安装,之后使用其中一块新的磁盘来安装了(之前的两块硬盘一定要保存好,因为数据和AD的信息还没有拷贝出来也没有备份),这次安装03成功。
10、开始使用AD的system status的backup来还原AD信息。发现无法正确还原,老是在出现按ctrl+alt+del三个键时候卡死了,鼠标键盘都动不了。无奈,重新试了好几次也是这样。选择安全模式或者安全模式的其他模式都是如此,但是唯一有价值的是可以ping通该地址。25号端口也开放,远程也进不去。使用这个机器的其他月的system status的backup也不行。会提示硬件驱动的验证性问题或者是微软徽标授权等等。看起来做好的备份都是浪费,没有一点用。建议大家以后在做完后备份后要不定期的抽检备份的可用性和有效性。也许我们应该考虑一个问题system status是备份的什么内容,如果是硬件信息发生变动了是否会有影响,虚拟机中的是实验是没有任何作用的。
 11、最后一个办法就是使用备份域的机器来重建域控了。执行dcprodo选择新林中现有域来进行同步时提示没有dns资源。打开备域的dns记录查看结果没有dns的资源没有dns的任何记录,这个dns没有启用。所以这个方法也没行不通。至此建议大家对备机也要定期进行故障模拟的切换测试,来验证在紧急状态下备域可以发挥作用。
以上的方法都无法达到有效的结果,只好重新升级域,重新在这个域建立账户了。这些操作大概花费了我一个星期的时间,被领导训斥效率低,能力欠佳,本来我的工作和这个毫无关系的,只是在我备份的时候发现了这台机器。刚开始的时候好多老前辈和主管都有好多建议(当时没听),作为来维修的我按照自己的想法去一步步验证得来上面的这些的,最后解决不了了,去问他们结果人家不理我了还把关系搞砸了。自己心里虽然踏实了可是关系搞砸了心里还是难受。所以和别人交流后的出来的开头的心得一定要去做(给自己的建议)。
 

 
修复界面的选项图,是在安装03的时候出现的。

这个图是修复时和安装系统时候会出现的提示

这个是做raid1时候的信息,现在两块盘都是raid1的成员盘。

 
这个是创建raid的界面。


 

大家有好的建议和方法的请不吝赐教。