Kylin的垃圾清理

本文介绍了Apache Kylin在运行一段时间后如何管理和清理不再使用的垃圾数据,包括Purge后的Cube数据、CubeSegment、临时文件和过时日志。清理过程涉及元数据和存储器数据两个方面,并提供了相应的清理工具。在执行清理前,务必进行元数据备份,以防止数据丢失。文章还详细说明了检查和执行清理操作的命令。
摘要由CSDN通过智能技术生成

在Kylin运行一段时间之后,有很多数据因为不再使用而变成了垃圾数据,这些数据占据着大量HDFS、HBASE等资源,当积累到一定规模时会对集群性能产生影响。这些垃圾数据主要包括:
1、Purge之后原Cube的数据
2、Cube合并之后原Cube Segment的数据
3、任务失败中未被正常清理的临时数据文件
4、已经过时的Cube构建的日志和历史任务
为了对这些垃圾数据进行清理,Kylin提供了两个常用的工具。特别注意:数据一经删除将彻底无法恢复!建议使用前一定要进行元数据备份,并对目标资源删除之前进行谨慎的核对。
清理元数据
1、首先,执行检查,这是安全操作,不会修改任何内容

$KYLIN_HOME/bin/metastore.sh clean
#这样智慧列出可以被清理的资源供用户核对,而不进行实际的删除操作
  1. 在上面的命令中添加“–delete true”参数,这样就会清理掉无用的资源,切记,在这个命令操作之前,一定要备份kylin元数据
./bin/metastore.sh backup

$KYLIN_HOME/bin/metastore.sh clean --delete true

清理存储器数据
Kylin在构建Cube过程中会在HDFS上生成中间数据。另外,当我们对Cube执行purge/drop/merge时,一些HBASE的表可能会保留在HBASE中,而这些表不再被查询,尽管Kylin会做一些自动的垃圾回收,但是它可能不会覆盖所有方面,所以需要我们能够没隔一段时间做一些离线存储的清理工作。

1.检查那些资源需要被清理,这个操作不会删除任何内容

$KYLIN_HOME/bin/kylin.sh org.apache.kylin.storage.hbase.util.StorageCleanupJob --delete false

2.开始执行清理操作

$KYLIN_HOME/bin/kylin.sh org.apache.kylin.storage.hbase.util.StorageCleanupJob --delete true
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值