某日,同事反馈数据库节点2无法连接,持续发出探测告警,报错信息如下:
根据连接报错信息,可以看到提示Nospace left on device,这个报错大概率为oraclehome 的安装目录文件系统满了,进一步检查文件系统,情况如下:
可以看到/oracle使用率100%,可用空间不足16M.既然知道了原因,则清理清理相关日志信息问题将会得到解决。进入/oracle核实目录空间使用信息,找出大对象.
通过find核实并没有大于500M的日志信息,大于100M的文件信息也比较少,不像是大文件占用的问题,再次使用du核实目录空间信息.
一翻检查发现/oracle下整个目录加起来才使用11g空间,其余空间去向未知.这种现象一般都是删除了某些大文件但是进程句柄未释放。
使用lsof检查/oracle目录下的句柄信息,这时我们发现tfa的java进程存在deleted状态的文件,但是句柄一直未释放,且占用空间接近80G.
重启tfa后,异常进程都将得到释放,至此该问题得到解决。