问题:
在操作BDR迁移hive数据的过程中。目标集群的CM界面突然无法显示,最后后台找到对应BDR任务手动杀死进程,重启集群的server和agent服务。CM界面正常显示,但是过了一会HMS异常退出。CM界面CMS中JVM 堆栈内存显示高出设定值。重启CMS过一段时间还是会自动挂掉。JVM 堆栈内存显示仍然高出设定值。
问题分析:
由于近期业务开启了只有BDR任务,最初认为是任务过多导致的;经过排查发现元数据库磁盘空间不足,hive元数据库notification_log表竟然几百G,数据库扩容后仍然没用。最后查到notification_log表的记录这么多是因为开启hive设置“启用数据库中的存储通知”(Hive Metastore Server Default Group),由于当时又在做大量的BDR操作,大量日志写入这个表导致数据很多。
解决:
1、 notification_log记录的都是日志,由于存的数据太多导致访问这个表性能很低。 把notification_log表里的数据直接truncate掉,重启HMS,就恢复了。
2、由于BDR会产生大量日志,可把启用数据库中的存储通知对应的时长参数改小一些,使其按照设定周期删除数据。