hdfs数据误删后恢复方式

最新推荐文章于 2024-04-26 02:51:28 发布

风筝Lee

最新推荐文章于 2024-04-26 02:51:28 发布

阅读量3.3k

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/breakout_alex/article/details/107574028

版权

hadoop 专栏收录该内容

20 篇文章

订阅专栏

本文详细介绍了Hadoop HDFS中的数据安全措施，包括HdfsTrash回收机制和HdfsSnapShot快照功能，以及在未配置这些功能时如何紧急恢复已删除的重要数据。探讨了HDFS delete流程，并提供了一套具体的恢复步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

我们知道hdfs是hadoop体系上的文件系统，负责具体的数据文件存储，且如果一旦hdfs文件被误删除后，尤其是重要数据，对公司来说影响非常大。所以需要提前做一些安全预防措施，例如使用Hdfs Trash机制，或者重要目录应用Hdfs SnapShot功能，然后针对于删除的文件或者目录可以通过trash或者SnapShot机制来进行恢复，如果数据确实已经删除了（例如直接通过hadoop api进行delete，未配置SnapShot），如果想恢复数据，就需要快速采取一定的措施了。下面我们来分别介绍下这些恢复数据的使用方式与机制。

Hdfs Trash（回收箱）

对于线上生产环境的HDFS，开启回收站功能是必不可少的。该功能类似于linux系统的回收站设计，HDFS会为每个用户创建一个专属的回收站目录（/user/${user.name}/.Trash），用户删除文件时，实际上是被移动到了回收站目录。用于预防当用户误删HDFS上的数据时，能够及时从回收站恢复这些数据（当然回收站是防不住删库跑路的）。

使用这种方式的前提是在hdfs上面开启trash功能，默认是没有开启的。interval的值默认为0，单位是分钟。只需要在hadoop的配置文件core-site.xml中添加下面的内容：

<!--Enable Trash -->
<property>
      <name>fs.trash.interval</name>
      <value>120</value>
</property>
<property>
      <name>fs.trash.checkpoint.interval</name>
      <value>120</value>
</property>

添加好上述内容后，不需要重启后台程序，直接就会生效。执行删除操作后，会先将文件移动到当前操作用户的.Trash/Current目录下面。

Hdfs SnapShot(快照)

hadoop从2.1版本后开始支持HDFS快照（SnapShot）功能，

快照创建瞬时性：除去inode的查询时间，算法消耗O(1)复杂度。
只有在对快照修改时才会消耗额外内存：内存使用O(M)，M是被修改的文件或者目录数。
DataNode的block不被复制：快照文件记录block列表和文件大小。不做数据的拷贝复制。
快照不会对正常HDFS操作产生不利影响：所有的修改都按照时间倒序排序，因此当前数据总能被直接访问到。快照数据是根据与当前数据进行变更部分的差值计算得来的。

使用实例：

使用方式：
#创建快照：
hdfs fs  -allowSnapshot  /test
hdfs fs -put  test.txt   /test
hdfs fs  -createSnapshot  /test   import_data

#将test文件删除：
hdfs fs -rmr  /test/test.txt

#误删除后就可以使用快照目录进行恢复：
hdfs  fs  -cp /test/.snapshot/import-data/test.txt  /text

恢复数据

然而如果直接调用hadoop delete api进行删除操作，是默认不会走trash机制的，同时也未配置快照功能的情况下，文件所对应的block数据已经开始真正从底层文件系统层面进行删除，此时需要快速的做出决断进行恢复操作。因为需要停止数据服务（nn、dn），所以需要综合考虑，去权衡恢复数据和停服对线上服务的影响两者之间的利害关系。

首先梳理下hdfs delete的流程，如下图：

我们可以看到hdfs delete流程中很多环节都是异步进行操作的，所以如果想恢复数据，需要立即做出决定是否进行停服，可以恢复的数据量也取决于操作与停服间隔时间，还有集群的繁忙程度，所以可能恢复全部或者部分数据，如果时间过了很久了，在集群规模比较大、集群比较空闲的情况下，可恢复的数据量百分比就不能太乐观了。下面我们来说明下具体恢复步骤（说明：操作的前提是有删除操作之前的fsimage元数据，同时需要有备用的新集群）：

1. 及时停止hdfs集群服务（nn、dn），阻止block数据从os上进一步被删除；

由上述的hdfs delete流程可知namenode删除block指令是通过datanode心跳一批批下发的，且datanode是通过异步线程删除block数据，所以需要立即停止服务进程，阻止datanode上的block文件进一步被删除；

2. 拷贝删除数据前的元数据fsimage文件，并在新集群namenode加载

2.1) 通过hdfs审计log找到删除操作开始的确切时间点；

2.2) 从fsimage备份的多个版本中，找到删除操作时间点前的fsimage；

2.3) 停掉新集群所有进程(保留journalnode)，初始化新环境；

2.4) 停掉所有journalnode进程，在image目录替换为备份的fsimage文件，替换imaeg、edits、和所有journalnode目录下的VERSION文件为生产环境上的VERSION文件；

2.5) 启动namenode进程；

3. 用fsck在新集群namenode获取数据块blockid，生成列表文件

./bin/hadoop fsck 误删目录 -files -blocks (通过脚本生成blockid列表文件)

4. 从原集群datanode上拷贝blockid对应的文件到新集群datanode

4.1) 在原集群每个datanode上生成要拷贝的blockid文件目录列表（编写脚本通过ancible执行）