项目场景:
分片集群mongo服务器 * 1(8C32G)
node+redis+nginx服务器 * 1(4C8G)
请求频率:30000次/min
问题描述:
服务出现大量无响应
第1次排查:
问题:
服务持续了30min左右无响应,node服务器无压力,mongo服务器CPU使用率100%告警。
应对:
- 将(尚未成型的)分片集群mongo服务改为单机mongo;
- 将8C32G的mongo服务器升级为16C32G(事后经验证并无必要);
- 根据mongo慢查询添加索引。
结果:
mongo服务CPU利用率峰值下降至10%。
第2次排查:
问题:
服务持续了10min左右无响应,mongo服务器无压力,无任何告警。
应对:
- 使用Aliyun云监控参考服务器参数,并无异常;
- 查看node服务error log,并无异常;
- 查看nginx服务error log(path: /var/log/nginx/),无响应期间大量"failed(24: Too many open files)"错误。为nginx文件句柄不足导致。修改nginx配置文件(path: etc/nginx/nginx.conf)尝试解决问题。
附上:
#/etc/nginx/nginx.conf
worker_processes auto; #重要
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
worker_rlimit_nofile 65535; #重要
events {
worker_connections 65535; #重要
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
sendfile on;
#tcp_nopush on;
keepalive_timeout 65;
#gzip on;
include /etc/nginx/conf.d/*.conf;
}
结果:问题解决,mongo服务器使用率不再超过20%。