1、问题描述
1.1 基本信息[Basic Information]
- 集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12
- hadoop社区版本:**
- 商业版本:FusionInsight_HD_V100R002C60U10
- MetaStore:高斯数据库(Postgresql)
1.2 问题描述[Problem Description]
- hive任务执行失败,报没有空间;
2、问题分析[Problem Analysis]
经过分析发现hive写临时文件到/opt/Huawei/Bigdata/tmp目录,无法写入,原因是DBservice的备份文件过多导致/opt/目录空间占满。
DBService备份文件过多问题:DBService备份文机制,先在主DBServer节点上备份,然后再同步到备DBServer节点上,主DBServer上做了回滚机制,只保留最新的10备份,备DBServer会全部保留,因此备上/opt很容易被占满;备DBServer节点安装目录被占满,导致这个节点上所有的实例都运行异常
如果发生过主备倒换,主备DBServer节点上可能都存在大量的备份文件。确认为版本缺陷,版本已经提单修正。
3、根本原因[Root Cause]
DBService备份机制不合理,备DBServer上的备份文件未做回滚,仅仅从主DBServer上同步,导致大量堆积
由于在HA中配置了delete="no"参数
/opt/huawei/Bigdata/FusionInsight/dbservice/ha/module/hasync/plugin/conf/dbservice_sync.xml
<file name="/opt/huawei/Bigdata/FusionInsight_V100R002C60U10/dbservice/bak" delete="no"/>
在主上做了回滚,因此在主DBServer节点上的备份只会保留10个,配置这个参数表示在主DBServer上不存在的文件,同步时在备DBServer节点上不删除
4、解决措施[Corrective Action]
4.1 临时解决措施[Workaround]
4.2 最终解决措施[Solution]
- 60U10SPC003补丁,预计发布时间:2017年1月30日。