elasticsearch备份与恢复2_es通过repository-hdfs插件支持snapshot和restore API

最新推荐文章于 2024-09-18 10:39:18 发布

const伐伐

最新推荐文章于 2024-09-18 10:39:18 发布

阅读量2.7k

点赞数 1

分类专栏： ELK

本文链接：https://blog.csdn.net/u013905744/article/details/81558438

版权

ELK 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

前面的背景参见：elasticsearch备份与恢复1_安装Hadoop HDFS

备份es数据，要使用snapshot api。这个api会将es当前的状态和数据全部存储到一个外部的共享目录中去，如HDFS。

恢复索引数据，使用restore api，会将保存在HDFS中的索引snapshot恢复到es中

官方snapshot及restore文档：https://www.elastic.co/guide/en/elasticsearch/reference/6.3/modules-snapshots.html

安装repository-hdfs插件

先停掉es，之后安装repository-hdfs的插件

官方参考文档：https://www.elastic.co/guide/en/elasticsearch/plugins/6.3/repository-hdfs.html

bin/elasticsearch-plugin install repository-hdfs

重新启动的时候，可以看到es日志中

[2018-08-09T14:08:34,777][INFO ][o.e.p.PluginsService ] [rS8YfY_] loaded plugin [repository-hdfs]

repository-hdfs plugin是与hadoop整合起来使用的。所以如果我们使用的hadoop版本跟这个es repository-hdfs plugin的版本不兼容，那么考虑在hdfs plugin的文件夹里，将hadoop相关jar包都替换成我们自己的hadoop版本对应的jar包。

安装好了hdfs plugin之后，就可以创建hdfs仓库了

一定记得打开docker02防火墙50010端口，否则就会报错

There are 1 datanode(s) running and 1 node(s) are excluded in this operation.

创建HDFS仓库

一定记得打开docker02防火墙9000端口，否则就会报错

kibana语句为

PUT _snapshot/my_hdfs_repository
{
  "type": "hdfs",
  "settings": {
    "uri": "hdfs://192.168.211.104:9000/",
    "path": "/usr/local/data/my_hdfs_repository",
    "conf.dfs.client.read.shortcircuit": "false"
  }
}

这样就会在docker02的/usr/local/data/my_hdfs_repository下创建hdfs仓库

创建完仓库后，可以通过curl语句来验证仓库状态

curl -XPOST 'http://192.168.211.108:9200/_snapshot/my_hdfs_repository/_verify'

对索引进行snapshot备份

1. 对所有open的索引进行备份

一个仓库可以包含多份snapshot，每个snapshot是一部分索引的备份数据，创建一份snapshot备份时，我们要指定要备份的索引。

比如下面这行命令：

PUT _snapshot/my_hdfs_repository/snapshot_1，这行命令就会将所有open的索引都放入一个叫做snapshot_1的备份，并且放入my_hdfs_repository仓库中。这个命令会立即返回，然后备份操作会被后台继续进行。

如果我们不希望备份操作以后台方式运行，而是希望在前台发送请求时等待备份操作执行完成，那么可以加一个参数即可。

比如这样：PUT _snapshot/my_hdfs_repository/snapshot_1?wait_for_completion=true

2. 对指定的索引进行备份

kibana语句

PUT _snapshot/my_hdfs_repository/snapshot_2
{
    "indices": "index_1",
	"ignore_unavailable": true,
	"include_global_state": false,
	"partial": true
}

ignore_unavailable如果设置为true的话，那么那些不存在的index就会被忽略掉。默认情况下，这个参数是不设置的，那么此时如果某个index丢失了，会导致备份过程失败。

设置include_global_state为false，可以阻止cluster的全局state也作为snapshot的一部分被备份。

默认情况下，如果某个索引的部分primary shard不可用，那么会导致备份过程失败，那么此时可以将partial设置为true。

一般来说，备份是在一个shell脚本里，你用crontab做一个定时，比如每天凌晨1点，就将所有的数据做一次增量备份，当然，如果你的数据量较大，每小时做一次也ok。shell脚本里，就用curl命令，自动发送一个snapshot全量数据的请求。那么这样的话，就会自动不断的去做增量备份

备份完成之后，通过Browser HDFS可以看到

增量备份

snapshot的过程是增量进行的，每次执行snapshot的时候，es会分析已经存在于仓库中的snapshot对应的index file，然后仅仅备份那些自从上次snapshot之后新创建的或者有过修改的index files。这就允许多个snapshot在仓库中可以用一种紧凑的模式来存储。而且snapshot过程是不会阻塞所有的es读写操作的，然而，在snapshot开始之后，写入index中的数据，是不会反映到这次snapshot中的。每次snapshot除了创建一份index的副本之外，还可以保存全局的cluster元数据，里面包含了全局的cluster设置和template。

查看snapshot备份列表

GET _snapshot/my_hdfs_repository/snapshot_1?pretty

删除备份

如果要删除过于陈旧的snapshot备份快照，那么使用下面这行命令即可：

DELETE _snapshot/my_snapshot_repository/snapshot_2。

记住，一定要用api去删除snapshot，不要自己手动在hdfs里删除这个数据。因为snapshot是增量的，有可能很多snapshot依赖于底层的某一个公共的旧的snapshot segment。但是delete api是理解数据如何增量存储和互相依赖的，所以可以正确的删除那些不用的数据。如果我们自己手工进行hdfs文件删除，可能导致我们的backup数据破损掉，就无法使用了

监控snapshot的进度

GET _snapshot/my_snapshot_repository/snapshot_3/_status

这个api立即返回最详细的数据。这里我们可以看到总共有几个shard在备份，已经完成了几个，还剩下几个，包括每个索引的shard的备份进度

取消snapshot备份过程

如果我们想要取消一个正在执行的snapshot备份过程，比如我们发现备份时间过于长，希望先取消然后在晚上再运行，或者是因为不小心误操作发起了一次备份操作，这个时候就可以运行下面这条命令：

DELETE _snapshot/my_snapshot_repository/snapshot_3。

也就是立即删除这个snapshot，这个命令会去取消snapshot的过程，同时将备份了一半的仓库中的数据给删除掉。

数据恢复

3. 基于snapshot数据恢复

restore过程只能针对已经close掉的index来执行，而且这个index的shard还必须跟snapshot中的index的shard数量是一致的。restore操作会自动在恢复好一个index之后open这个index，或者如果这些index不存在，那么就会自动创建这些index。如果通过include_global_state存储了集群的state，还会同时恢复一些template。

如果你要做数据恢复，比如说，你自己误删除，不小心将整个index给删除掉了，数据丢了，很简单，直接用最新的那个snapshot就可以了

POST /_snapshot/my_hdfs_repository/snapshot_1/_restore
{
    "indices": "hzeg-history-words", 
	  "ignore_unavailable": true,
	  "include_global_state": true
}

这个restore过程也是在后台运行的，如果要在前台等待它运行完，那么可以加上

?wait_for_completion flag，包括之前的备份过程，也是一样的，对运维中的自动化shell脚本，很重要，你的shell脚本里，要比如等待它备份完成了以后，才会去执行下一条命令