在开发一个项目中,有大量的图片需要处理,并能够进行搜索。于是,在es中建立两个索引,raw和labeled,raw存放爬虫获取的原始图片,暂时是运营人员来给这些未经筛选的图片打上标记,后续会引导产品的用户去给图片标记。图片标记后将进入labeled索引,后续的搜素主要围绕labeled来展开。
在开发时,将es搭建在单体的虚拟机中,现在v0.0.1完成,需要将其迁移到正式环境中的es集群。这是前提,本文简单记载了这次es迁移,方便日后查看。
首先使用REST PUT在集群中建立新的index以及相应type。我使用的的是dynamic template,示例:
{
"mappings": {
"gif_meta": {
"dynamic_templates": [
{
"strings": {
"match_mapping_type": "string",
"mapping": {
"type": "text",
"analyzer": "ik_max_word"
}
}
}
]
}
}
}
复制代码
如果自己去写个程序,通过读取源es再写入新es肯定是可以的,虽然工作量不是很大,但是略显麻烦。于是找找有没有现成的轮子可以用。于是这次我使用了elasticsearch-dump这个工具,地址:github.com/taskrabbit/…
这个工具是使用nodejs写的,首先下载轮子:
npm install elasticdump -g
复制代码
几秒钟便可下载完成。
如何迁移?
elasticdump --input=http://host:port/index/type --output=http://host:port/index/type --type=<select>
复制代码
一条简单的命令即可启动,解释一下。
input为源es,output为想要迁移到的es。
host:port/index/type
即你所对应的es属性,当然你也可以写成host:port/index
这样就变成了迁移单个index,如果写成host:port
,则为迁移整个实例。
关于参数--type=<select>
,可供选择的有settings、analyzer、data、mapping、alias,默认为data。
十分方便,写完这篇笔记,我的迁移已经完成了。
新增字段
比如要新增的字段为“deleted”
PUT index/_mapping/type
{
"properties": {
"deleted": {
"type": "boolean"
}
}
}
复制代码
批量给这个字段赋值
POST /index/type/_update_by_query?conflicts=proceed
{
"query" : {
"match_all" : {}
},
"script" : {
"lang" : "painless",
"inline" : "ctx._source.<fieldname> = params.last",
"params" : {
"last" : "<value>"
}
}
}
复制代码