一次es迁移

最新推荐文章于 2024-08-08 00:45:00 发布

weixin_33829657

最新推荐文章于 2024-08-08 00:45:00 发布

阅读量947

点赞数

文章标签：数据库运维爬虫

原文链接：https://juejin.im/post/5bf26ddaf265da613a539f69

版权

在开发一个项目中，有大量的图片需要处理，并能够进行搜索。于是，在es中建立两个索引，raw和labeled，raw存放爬虫获取的原始图片，暂时是运营人员来给这些未经筛选的图片打上标记，后续会引导产品的用户去给图片标记。图片标记后将进入labeled索引，后续的搜素主要围绕labeled来展开。

在开发时，将es搭建在单体的虚拟机中，现在v0.0.1完成，需要将其迁移到正式环境中的es集群。这是前提，本文简单记载了这次es迁移，方便日后查看。

首先使用REST PUT在集群中建立新的index以及相应type。我使用的的是dynamic template，示例：

{
  "mappings": {
    "gif_meta": {
      "dynamic_templates": [
        {
          "strings": {
            "match_mapping_type": "string",
            "mapping": {
              "type": "text",
              "analyzer": "ik_max_word"
            }
          }
        }
      ]
    }
  }
}
复制代码

如果自己去写个程序，通过读取源es再写入新es肯定是可以的，虽然工作量不是很大，但是略显麻烦。于是找找有没有现成的轮子可以用。于是这次我使用了elasticsearch-dump这个工具，地址：github.com/taskrabbit/…

这个工具是使用nodejs写的，首先下载轮子：

npm install elasticdump -g
复制代码

几秒钟便可下载完成。

如何迁移？

elasticdump --input=http://host:port/index/type --output=http://host:port/index/type --type=<select>
复制代码

一条简单的命令即可启动，解释一下。

input为源es，output为想要迁移到的es。

host:port/index/type即你所对应的es属性，当然你也可以写成host:port/index这样就变成了迁移单个index，如果写成host:port,则为迁移整个实例。

关于参数--type=<select>,可供选择的有settings、analyzer、data、mapping、alias，默认为data。

十分方便，写完这篇笔记，我的迁移已经完成了。

新增字段

比如要新增的字段为“deleted”

PUT index/_mapping/type

{
     "properties": {
        "deleted": {
            "type": "boolean"
        }
    }
}
复制代码

批量给这个字段赋值

POST /index/type/_update_by_query?conflicts=proceed

{
	"query" : {
		"match_all" : {}
	},
	"script" : {
		"lang" : "painless",
		"inline" : "ctx._source.<fieldname> = params.last",
		"params" : {
			"last" : "<value>"
		}
	}
}
复制代码