背景
今天在工作中碰到一个问题,大数据任务监控的显示今天的任务普遍很慢,而整个集群资源却很充足,集群的nodemanager节点也无异常问题,就是特别的慢。反馈到我这后,脑壳疼。。。
原因定位
总结最近对集群进行的变更,逐步排除影响因素,最后发现负责运维集群的同事最近重启了整个集群的nodemanager节点,排查到这,问题原因缩小,-----终于见到了曙光;
最后发现原因所在,nodemanager节点重启后,进程的句柄数还原了,变为了4096,查看nodemanager日志细微发现,线程数有报警;
定位到在这,心里对操作人员一顿输出。。。
下面就来说一下工作中对进程打开句柄数查询的命令,和系统句柄数设置和操作系统相关方面的介绍
具体使用方法
1.参看Linux系统默认的最大句柄数,系统一般默认为1024;
执行命令:
ulimit -n
1024
2.查看指定进程打开了多少句柄数;
执行命令:
lsof -p <进程PID> | wc -l
<