一、问题发现
刚刚上线的项目,前端使用的LVS+Haproxy做的负载均衡,支持高并发访问量,但是支撑一段时间后总是出问题,查看日志,发现有如下Too many open files的问题。
二、最大文件打开数描述
1、首先普及几个知识
Linux下一切都是文件,包括输入输出设备、网络连接、socket、管道等;
与文件打开数最相关的是文件描述符(有的人喜欢称作文件标识符,英文为file descriptor),文件打开数的实质就是文件描述符的数量;
文件打开数的多少取决于系统种类、内存大小,int(语言关键字,如C99的int)长度(非负整数),以及系统管理员的设定;
最大文件打开数是针对一个进程而言,即一个进程能打开的文件句柄数目是有限的,不能超过最大文件打开数;
ulimit 命令只对当前shell有效,因此在编写Shell脚本时,如果需要并能控制文件最大打开数,则先执行“ulimit -n 文件打开数”命令,在去执行下面的内容;
在Linux中被打开的文件描述符存放在/proc/PID/fd/,其中PID就是process identifier。
除了需要注意,还需要注意ulimit -v unlimited,最大可用的虚拟内存(The maximum amount of virtual memory available to the shell and, on some systems, to its children)
2、最大文件打开数的全局设置
在CentOS和Ubuntu中ulimit是一个bash里面的内置命令,就像if、shift一样,并不是一个单独的命令,因此在Ubuntu中通常会遇到有人使用sudo ulimit -n 65535命令时遇到找不到这个命令的提示(也许是sudo的bug),
ulimit提供shell或者进程可用资源的控制,这些可用资源包括但不限于最大文件打开数、最大可用虚拟内存、最大进程数量、socket buffer等,它有两种限制等级hard和soft,分别对应的参数开关是-H和-S,hard限制使得非root用户不得增加(超过)设定的值,soft限制允许非root用户增加到hard的限制值,通常一般会将hard值和soft值设置成一个相同的值,命令是ulimit -HSn 65535。
ulimit只对当前shell有效,要想在任何地方生效,除了先执行ulimit命令以外就是更改配置文件,也就是更改最大文件打开数的全局设置,方法是编辑/etc/security/limits.conf文件,添加以下两行,重新登录系统生效。
其中,“*”表示所有用户都生效,重启后,在任何地方执行ulimit -n就会显示65535。
3、一些与文件打开数相关的命令以及其他相关命令
查看当前系统的文件打开总数(Maximum number of opened files):cat /proc/sys/fs/file-max
查看当前进程的文件打开数:lsof -p 16075 | wc –l
查看当前端口的文件打开数:lsof -i:80 | wc -l
在使用lsof之前需要注意,lsof不适合查看一个连接数很高或者数量动态变化过快的进程或端口
查看某个进程使用的文件:lsof -p 16075
查看某个端口使用的文件:lsof -i:80
查看使用某个文件的用户和程序:fuser -v /bin/bash
三、注意事项
1、使用ulimit -n 65535可以立刻生效,但是重新登录之后会恢复成系统初始设置1024。
2、也可以在/etc/profile的最后配置ulimit -n 65535,使其生效。
HAproxy 的详细介绍:请点这里
HAproxy 的下载地址:请点这里