一次邮件服务器故障定位-Domain not found
2月6日公司业务部门反馈:“内部搭建的邮件服务器无法使用”,影响到业务使用,需紧急处理,本文记录本次邮件服务器故障定位与修复的主要过程。
由于2月5日依照阿里云要求,做了一次机器迁移,推测故障原因跟这次迁移有关系。
问题在我接手之前,IT小哥通过提工单与阿里的售后工程师沟通,已经分析了一些现状,做了一些尝试:
- 放开访问控制中的入方向限制,由限定部分端口改成不限制
- 解封出方向的25端口
经过上述几种尝试后,邮件服务器发件功能可用,收件功能依旧异常,然后由我接手继续排查故障。
迁移
迁移带来的变化是重点关注对象,这次迁移是阿里云内部要求的,具体内容包括:
- 经典网络迁移至专有网络
- 内网IP地址变化
- 软件授权码变化
- I/O性能变化
这些变化虽是重点关注对象,但接手后并不是第一时间去分析变化可能带来的影响,而是从服务器内部出发,排查服务器内部原因。
服务器状态
ssh连接到服务器,由于不知道邮件服务器是如何搭建的,做了如下几件事情:
history > ~/history.log && cat ~/history.log
,保存并查看之前的历史命令
没太多有效信息,跟本次故障可能相关的有:修改
/etc/firewalld/zones/public.xml
并重启了防火墙、使用telnet smtp.aliyun.com 25
测试出方向的25端口是否可用(经过解封已经可用)
top
,查看下服务器负载
机器负载正常
uptime
,查看服务器启动时间
推断上次重启时间:迁移成功后触发的重启
netstat -nltp
,查看监听的端口
当对一台服务器上所运行的服务不够了解时,这个命令非常有帮助,可以查看监听的端口信息,从而推断出所运行了哪些常见服务,通过该命令了解到端口使用情况:
- 25,SMTP邮件服务:postfix
- 80、443,HTTP服务:nginx
- 3306,数据库:mysql
- 993、995,不了解的服务:dovecot
- 11211: memcached、20000: sogod、10024: amavisd等