【大数据】关于hive中删除操作及HDFS回收站管理腾出空间的实操

一、删除

删除hive数据时,首先明确你使用删除数据还是连同表结构也要删除,如果只是要删除数据可以选择truncate来清空表中的数据,如果要对表进行删除,首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用,如果不需要使用了可以直接使用HDFS命令对目录进行删除。

查询内、外部表有两个方法:
方法一:
hive shell中执行

describe extended tablename; 

查看表的详细信息,外部表 tableType 字段会显示 EXTERNAL_TABLE,内部表 tableType字段会显示MANAGD_TABLE。

方法二:
在hive shell中执行

desc formatted tablename; 

可以查看表的格式和详细信息,这里可以得到Table Type ,也可以根据Table Type知道表是内部表还是外部表。MANAGED_TABLE内部表,EXTERNAL_TABLE是外部表。

同时可以查看表的location ,直接指定的是hdfs的路径,则是外部表,如果指定的是Hive表数据存放的路径,则是内部表,hive表数据存放的路径在Hive的${HIVE_HOME}/conf/hive-site.xml配置文件中,hive.metastore.warehouse.dir属性指定的路径。

二、Hadoop回收站

Hadoop回收站trash,默认是关闭的。 可以对如下配置进行修改,回收站保留时间可以根据你的hadoop集群的存储空间、删除数据的频率、每天回收站回收的占用来决定。

**1.修改conf/core-site.xml,增加 **

<property>  
      <name>fs.trash.interval</name>  
      <value>1440</value>  
      <description>Number of minutes between trash checkpoints.  
      If zero, the trash feature is disabled.  
      </description>  
    </property>  

默认单位是分钟。这里我设置的是1小时(60*24=1440)
在hdfs的shell中删除数据后、hive删除表后都会将数据移动到该用户目录下的.Trash目录。

如果要手动清空垃圾回收站有两种方式

1、清空回收站命令:

hdfs dfs -expunge

执行完之后会打一个checkpoint,并不会立即执行,稍后会执行清空回收站操作

2、删除.Trash目录(清理垃圾)

hadoop fs -rmr -skipTrash /user/$USER/.Trash

注意:需要添加参数: -skipTrash 才会完全删除,如果不添加,会放到另外一个.Trash

恢复回收站数据,就是将HDFS中垃圾回收站的数据移回对应表的目录中

例如:

hadoop dfs -mv /user/$USER/.Trash/Current/user/$USER/in /user/hive/warehouse
  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

橙子园

期待你的鼓励!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值