现象
准备地说这是一个由于HBase问题导致Trafodion不可用的问题。
重启Hadoop后,HBase Master过了一会儿自动Down掉,RegionServer显示正常。
HBase Master日志有较多报错"java.net.SocketException: Too many open files"
分析
判断是打开文件数过多导致,可能与ulimit设置有关。
解决
(1) ulimit -n 查看open file设置为3278,设置为65526或131072均无效。
(2) 仔细查看HBase Master日志,有很多MasterProcWALs相关的日志,参考https://cloud.tencent.com/developer/article/1349438,发现/hbase/MasterProcWALs文件数较大,根据文章中方案,备份并删除/hbase/MasterProcWALs下面的内容并重启HBase,问题解决。
(3) 配置HBase清除器,配置如下图