HDFS 为我们提供了垃圾箱的功能,也就是当我们执行 hadoop fs -rmr xxx
命令之后,文件并不是马上被删除,而是会被移动到执行这个操作用户的 .Trash
目录下,等到一定的时间后才会执行真正的删除操作。
如下所示:
$
sudo
-uiteblog hadoop fs -rmr
/user/iteblog/test
.txt
Moved:
'hdfs://iteblogcluster/user/iteblog/test.txt'
to trash at: hdfs:
//iteblogcluster/user/iteblog/
.Trash
/Current
$
sudo
-uiteblog hadoop fs -
ls
/user/iteblog/
.Trash
/Current/user/iteblog
-rw-r--r-- 3 iteblog iteblog 103
/user/iteblog/
.Trash
/Current/user/iteblog/test
.txt
$
sudo
-uiteblog hadoop fs -
mv
/user/iteblog/
.Trash
/Current/user/iteblog/test
.txt
/user/iteblog/
$
sudo
-uiteblog hadoop fs -
ls
/user/iteblog/test
.txt
-rw-r--r-- 3 iteblog iteblog 103
test
.txt
从上面的例子中可以看出,我们删了
test.txt
文件之后,文件被移到
/user/iteblog/.Trash/Current/user/iteblog/test.txt
路径下,如果这个操作属于误操作,那么我们可以到回收站找回这个文件并直接 mv 回原来的目录即可恢复之前的数据。不过这个功能的前提是要求我们启用
fs.trash.interval
参数,默认是 0 代表不启用垃圾箱功能。
该配置是说,文件被删除会保留到
.Trash
目录下一天,超过这个时间被删除的文件就会真正被删除。所以为了误删除操作,强烈建议开启 HDFS 回收站功能。