本文是对2018年8月9日公司Exchange邮件系统邮件流故障的故障发现、故障处理和故障修复的过程记录和总结反思。帮助自己总结经验和吸取教训,同时也作为一次反面教材让其他运维或管理员吸取教训。
故障发现
昨天下午18点50左右结束团队内培训分享会后,收到同事的反馈,说他们几个人都无法收到外部邮件(Internet上的邮件),故障现象为:Exchange服务器内网收发邮件正常,外网发送正常,但无法收到外部邮件。
因为公司的邮件系统是公司自建的ExchangeServer2010,因此需要运维自己去管理。经过多个外部邮箱的测试发现,的确无法收到外部邮件,这些外部邮箱包括网易、阿里企业邮箱和微软Outlook邮箱。
因为邮件服务是企业核心服务之一,加之已经有同事反馈遇到问题,因此此故障应该是重要紧急故障,必须尽快排除以恢复服务。
注1:如果问题比较严重或者有紧急事件处理流程规定,应该按照流程汇报上级领导和发出通告。
注2:以下是个人看法和经验总结,如有错误敬请指出。
故障处理
面临故障最重要的就是尽快通过排除法进行故障排除以实现服务的最快恢复。因此首先要做的故障排除。由于已经是下班时间,事故虽然重大,但还尚未造成重大影响。
因为在Windows特别是Exchange的运维上个人经验比较欠缺,不能凭经验一下子发现问题,因此只能先根据以往经验,结合Google等逐个排查。
经过初步测试,内部邮件收发正常,内部向外部发送邮件正常,但接收异常。于是开始以下排查。
在排查之前应该先需要搞清楚最近发生的变更,如软件配置,导致变更的操作&#