1. 现象
服务的cpu跑满(golang实现), 并大量报too many open files错误.服务使用systemd来运行,部署在阿里ecs上.
2.分析
从日志来看,cpu的上升主要为到达文件数限制引起的,但之前已经更改过系统的文件数及所有用户的文件数,按道理是不应该出现这个问题的,后来查阅资料发现,文件数可以从三个维度限制分别为操作系统限制,用户态限制,以及进程限制,对于这三个维度选取最小值生效.于是对系统进行分析.
首先查看当前打开文件数, 进程占用的文件数并不多.
lsof -n|awk '{print $2}'|sort|uniq -c|sort -nr|more
然后获取系统级文件数限制
输入命令
cat /etc/sysctl.conf
得到
fs.file-max = 1000000
查询用户级文件数限制
cat /etc/security/limits.conf
得到
* soft nofile 655350
* hard nofile 655350
单独获取程序文件数限制(9928为进程id)
cat /proc/9928/limits
得到