业务需要,针对线上的es进行字段扩容。并更新其中多个字段。想到最常规的办法,reindex。但考虑到线上的数据量。reindex需要较长的时间,而业务要求需要越快越好。
联想到mysql里的alter语法。alter table xxx add column xxx varchar(100)。对现有表结构进行变更。那es里是否有类似的实现呢?
翻了一段时间的ES官方文档,找到PUT Mapping API。这个api可以在对已有数据新增字段,就是所谓的热修改。因为我们用的es版本是6.7,所以先关注这个版本的api。
除了标准的在单个索引增加字段外,这个api竟然还可以同时对多个索引增加字段。
以下例子来自官方:
单个添加字段的。
PUT twitter/_mapping/_doc
{
"properties": {
"email": {
"type": "keyword"
}
}
}
同时对多个索引添加相同字段
PUT /twitter-1,twitter-2/_mapping/_doc
{
"properties": {
"user_name": {
"type": "text"
}
}
}
可以看到,只是在url上把多个索引名拼上就可以了。
对象类型和ignore_above参数也可以更新。具体参考官方用例。
那添加完的字段,我们查询新旧数据呢?比如说我们有个应用场景,统计有多少人没有填写email字段。这时候就需要es的bool查询了,must_not的条件查询了。
es提供了查询字段存的exists的语法,exists只有在两种情况下返回false。
单纯的null和空数组。
特别注意的是,包含null的数组为true。
于是有了下面的查询。
POST /twitter/_search
{
"query":{
"bool":{
"must_not":{
"exists":{
"field":"email"
}
}
}
}
}
查询库里没有email的记录。之后跟着业务逻辑处理
https://www.elastic.co/guide/en/elasticsearch/reference/6.7/indices-put-mapping.html
https://www.elastic.co/guide/en/elasticsearch/reference/6.8/query-dsl-exists-query.html