记一次 elasticsearch 数据导出备份

以前并没有接触过 elasticsearch ,感觉自己很 out !

而这次要导出的 elasticsearch 数据,有将近1千多万条数据,大概占用空间有 300G 左右,因为该项目的服务器空间资源不足,要扩容也没资源扩,需求是将 es 数据导出后,删除服务器上的一些数据,将空间腾出来继续使用。。。

先后用了 kibana、elasticdump、logstash

一、kibana

1.服务器的 elasticsearch 版本是 2.4.5,所以上官网下载了对应版本的 kibana 4.6.0 来进行连接,配置也比较简单,解压文件后编辑config 目录里得配置文件 kibana.yml ,有以下信息就行了

server.port: 5601
elasticsearch.url: "http://服务器ip:9200"

2.然后执行 bin 目录下的 kibana.bat 运行程序,通过浏览器访问:ip:5601 就能连上了,但是我发现这个 kibana 并没有可以导出数据的功能?后面了解到是不是应该安装 x-pack 之后才能用这个功能,但是 x-pack 不是用来监控 es 的插件吗?(谁给我点指点),kibana 的最新版本是有这个插件的。然后吧,我就百度找啊找,怎么安装这个 x-pack 插件,答案少之又少,而找到的,都是说用 bin 目录下的插件脚本安装 x-pack 即:

bin\kibana-plugin install x-pack

3.关键的关键是,kibana 4.6.0 并没有这个 kibana-plugin 脚本程序啊。啊~~~这~~~  既然如此,果断先抛开一边,后面再研究了,因为项目上急着把 es 的数据导出来。

二、elasticdump

1.elasticdump 是可以网上找到相关教程最多的一个了,安装过程如下:

a.下载 node 安装(node-v14.10.0-x64.msi 是目前最新版本),双击默认安装

b.安装完成后系统会自动添加 npm 环境变量,直接安装 elasticdump:npm install elasticdump -g

c.安装完成后会显示安装路径,添加到系统环境变量使用或者直接绝对路径去使用

2.导入导出数据

a.将索引中的数据导出到本地(导出索引为 index 的数据到 test.json 文件中):

elasticdump --input=http://ip:9200/index --output=D:/date/test.json

b.将本地数据导入es中:

elasticdump --input=D:/date/test.json --output=http://ip:9200/index

c.将es导入另一个es:

elasticdump --input=http://ip1:9200/index1 --output=http://ip2:9200/index2

3.尴尬的是,在我本地测试的时候,这样导出数据并没有任何问题,也很顺利的把数据都导下来了;而到了项目上,并没有那么顺利,第一次导出的数据大概有 70 多G之后就没反应了,也没有出现异常退出,日志也没有信息,但是干等不行啊,已经过了半天了,数据依然没有新增导出,重复操作了几次都是如此。因此也怀疑,是不是因为数据量大,导致在导出过程中查询超时而失败,但是失败了为何什么提示都没有?

4.因此我也在参数中增加了 --timeout 超时时间等,以及避免导出的文件太大,用 --fileSize 指定每个文件大小

elasticdump --input=http://ip:9200/index --output=D:/date/test.json --timeout=10 --sizeFile=1gb

5.当然,最后也是没有成功的导出所有数据,因为并没有日志和报错信息,所以也暂时放弃用 elasticdump

三、logstash

1.logstash 是我这次用的比较顺利的的软件工具了,虽然开始也有一点小插曲,导致导出过程中退出了(因服务器的自动备份把仅剩下的几G空间又占满了,导致服务断开)

2.我下载的是 logstash-5.6.1 版本,解压即可,但是需要系统有 jdk8 环境,为了不指定绝对路径,我直接在 bin 目录下创建了 conf 配置文件:test.conf 内容如下:

input{
     elasticsearch {
        hosts => ["ip:9200"]     # 你的服务器地址
        index => "test"          # 你的索引
		query => '{ "query": {"match_all" : {} } }'
        #type => "_doc"
        size => 100
        scroll => "5m"
        docinfo => true
        #user => "username"
        #password => "xxxxx"
    }
}
output{
   file { 
     path => "es_test.json"      # 输出的文件
   }
}

3.但是这样的输出文件只有一个,太大了,到时候如果完全导出,这个文件将近300多G。但是我发现 logstash 并不能像 elasticdump 那样可以指定分割文件的大小,所以,只能按输出时间来分割文件,让文件不至于过大,修改 output 部分如下:这样就是每隔一个小时会生成一个导出文件。

output{
   file { 
     path => "%{+YYYY.MM.dd.HH}es_test.json"
   }
}

4.这里导出的文件会发现时间用的是 timestamp 是 UTC 时间,和我们的时间还差 8 小时,加上 filter 配置覆盖该时间即可

input{
     elasticsearch {
        hosts => ["ip:9200"]
        index => "test"
		query => '{ "query": {"match_all" : {} } }'
        #type => "_doc"
        size => 100
        scroll => "5m"
        docinfo => true
        #user => "username"
        #password => "xxxxx"
    }
}
filter {
     ruby { 
        code => "event.set('timestamp', event.get('@timestamp').time.localtime + 8*60*60)" 
     }
     ruby {
        code => "event.set('@timestamp',event.get('timestamp'))"
     }
     mutate {
        remove_field => ["timestamp"]
     }
}

output{
   file { 
     path => "%{+YYYY.MM.dd.HH}es_test.json"
   }
}

5.可是我万万没想到的是,导了很久之后,还是断掉了,并没有报错,只是命令行最后提示了 stoppping 之后就停掉了

[WARN ][logstash.agent           ] stopping pipeline {:id=>"main"}

最后,咋搞?大神教教我。。。

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啊 这

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值