★★★
OLT、内存泄露
某地市运营商装机人员反馈网管上读取未授权ONU操作超时,可以telnet到此OLT,但是网管上所有读取类的操作全部显示执行中或等待超时,此故障并未影响到用户业务。
UNM2000网管问题;
OLT设备到网管的网络问题;
OLT设备问题。
1. 查看服务器上UNM2000网管的相关服务。
结果:6个UNM服务与Apache Tomcat 6服务正常,ICE服务正常。
结论:排除UNM2000网管故障问题。
2. 将OLT网元IP、掩码、网关记录好后,删除网元,重新添加OLT网元。
结果:发现无法检测到物理配置,但是可以telnet到OLT,长ping OLT设备IP不丢包。
结论:排除OLT设备到网管的网络问题。
3. 使用show log命令查看日志。
结果:未发现异常日志。
结论:需要继续排查问题。
4. 使用show time命令查看此OLT已经运行400多天,在服务器上查看此OLT的配置文件。
结果:发现配置文件保存时间异常(正常情况每日自动保存一次)。
结论:判断故障发生日期可能在配置文件保存时间异常期间。
5. 到现场,通过CRT方式或串口方式导出配置文件。
结果:导出配置文件提示失败。
结论:怀疑可能是主控盘内存泄漏导致故障。
6. Telnet登录到OLT,输入lll命令进入Debug目录。
在Debug目录输入dangerous_shell进入shell模式,在shell模式下输入memShow命令查看内存。
在Debug目录输入set malloc_debug enable命令打开内存监控,输入show malloc_debug detail命令查看主控盘内存情况。
结果:持续观察memShow状态两小时,发现当前内存在减少,同时age一直在增加。
结论:确认为主控盘内存泄漏。
对此OLT进行主备倒换,发现可以检测到物理配置,并恢复网管读取类的操作,同时观察上联口流量与pon-mac地址均正常,网管配置没有丢失。持续观察发现此OLT配置文件每天自动保存,网管读取类的操作也正常,再未发生过此类故障。后续查明内存泄露原因后,进行相应工程版本及补丁升级工作。
MemShow命令下bytes参数在不断减少,show malloc_debug detail命令下age参数一直增加,可以说明内存泄露。