想象一下我们的索引中有两种类型: blog_en 表示英语版的博客, blog_es 表示西班牙语版
的博客。 两种类型都有 title 字段, 但是其中一种类型使用 english 分析器, 另一种使用
spanish 分析器。
使用下面的查询就会遇到问题:
GET /_search
{
"query": {
"match": {
"title": "The quick brown fox"
}
}
}
我们在两种类型中搜索 title 字段, 首先需要分析查询语句, 但是应该使用哪种分析器
呢, spanish 还是 english ? Elasticsearch 会采用第一个被找到的 title 字段使用的分析
器, 这对于这个字段的文档来说是正确的, 但对另一个来说却是错误的。
我们可以通过给字段取不同的名字来避免这种错误 —— 比如, 用 title_en 和 title_es 。
或者在查询中明确包含各自的类型名。
GET /_search
{
"query": {
"multi_match": { <1>
"query": "The quick brown fox",
"fields": [ "blog_en.title", "blog_es.title" ]
}
}
}
<1> multi_match 查询在多个字段上执行 match 查询并一起返回结果。
新的查询中 english 分析器用于 blog_en.title 字段, spanish 分析器用于
blog_es.title 字段, 然后通过综合得分组合两种字段的结果。
这种办法对具有相同数据类型的字段有帮助, 但是想象一下如果你将下面两个文档加入同一
个索引, 会发生什么:
类型: user
{ "login": "john_smith" } 人名
类型: event
{ "login": "2014-06-01" } 时间
Lucene 不在乎一个字段是字符串而另一个字段是日期, 它会一视同仁的索引这两个字段。
然而, 假如我们试图 排序 event.login 字段, Elasticsearch 需要将 login 字段的值加载到
内存中。 像我们在 【字段数据介绍】 中提到的, 它将 任意文档 的值加入索引而不管它们的类
型。
它会尝试加载这些值为字符串或日期, 取决于它遇到的第一个 login 字段。 这可能会导致预
想不到的结果或者以失败告终。
提示: 为了保证你不会遇到这些冲突, 建议在同一个索引的每一个类型中, 确保用同样的方
式映射同名的字段