背景:
今天突然接到负责邮件同事的消息,邮件服务器不可用了,遂排查。
过程
1.手动telnet 465端口
发现端口不可用
2.查看nginx日志
发现Connection reset by peer
3、抓包排查
#监听端口
tcpdump -nn -i eth0 port 465
#请求代理地址
telnet 127.0.0.1 465
#请求后端地址
telnet smtp.test.cn 465
这里发现请求代理后的地址和域名解析出来的地址并不一致
4、问题发现
是nginx对dns的解析做了缓存,代理后端地址smtp.test.cn 节点发生变化,丢弃了原来的节点但nginx缓存还是缓存了原来的节点导致的异常。
解决方式
配置nginx resolver定时刷新dns缓存
配置如下
server {
listen 465;
resolver 111.111.111.111 8.8.8.8 valid=4800s;
resolver_timeout 3s;
set $smtp "smtp.test.cn:465";
proxy_pass $smtp;
proxy_connect_timeout 60s;
}
参数说明:
1、resolver
在server中配置,后面指定DNS服务器,多个DNS用空格隔开
2、 valid 缓存失效时间
失效后会重新获取dns解析
3、resolver_timeout
解析超时时间
注意:如果配置多个dns,要保证所有配置的dns都是可用的,因为解析采用轮询机制,当valid时间到了之后会使用第二个dns地址进行解析,如果有一个地址不可用,则会超时并返回could not be resolved (110: Operation timed out)错误。