ElasticSearch【有与无】【搜索引擎】【ES6】映射和分析

{
"tokens": [
{
"token": "text", // 一个实际被存储在索引中的词
"start_offset": 0, // 表示词在原文本中占据的位置
"end_offset": 4, // 表示词在原文本中占据的位置
"type": "<ALPHANUM>",
"position": 1 // 指明词在原文本中是第几个出现的
},
{
"token": "to",
"start_offset": 5,
"end_offset": 7,
"type": "<ALPHANUM>",
"position": 2
},
{
"token": "analyze",
"start_offset": 8,
"end_offset": 15,
"type": "<ALPHANUM>",
"position": 3
}]
}

指定分析器

当Elasticsearch在你的文档中探测到一个新的字符串字段，它将自动设置它为全文 string 字段并用 standard 分析器分析。

1.5.映射

核心简单字段类型
类型	表示的数据类型
String	string
Whole number	byte , short , integer , long
Floating point	float , double
Boolean	boolean
Date	date

动态映射猜测字段类型，JSON的基本数据类型
JSON type	Field type
Boolean: true or false	"boolean"
Whole number: 123	"long"
Floating point: 123.45	"double"
String, valid date: "2014-09-15"	"date"
String: "foo bar"	"string"

注意
如果索引一个带引号的数字—— "123"，它将被映射为 "string"  类型，而不是 "long" 类型。
如果字段已经被映射为 "long" 类型，Elasticsearch将尝试转换字符串为long，并在转换失败时会抛出异常。

查看映射

映射（叫做属性(properties)）是Elasticsearch在创建索引时动态生成。

【举例】

GET /gb/_mapping/tweet

【结果：动态生成】

{
"gb": {
"mappings": {
"tweet": {
   "properties": {
   "date": {
   "type": "date",
"format": "strict_date_optional_time||epoch_millis"
   },
   "name": {
"type": "string"
},
"tweet": {
"type": "string"
},
"user_id": {
"type": "long"
   }
}
   }
}
}
}

小提示
错误的映射，例如把 age 字段映射为 string 类型而不是 integer 类型，会造成查询结果混乱。
要检查映射类型，而不是假设它是正确的！

自定义字段映射

自定义类型可以使你完成以下几点：

区分全文（full text）字符串字段和准确字符串字段
使用特定语言的分析器
优化部分匹配字段
指定自定义日期格式
以及更多

映射中最重要的字段参数是 type 。除了 string 类型的字段，可能很少需要映射其他的 type。

{
"number_of_clicks": {
"type": "integer"
}
}

string 类型的字段，默认的，考虑到包含全文本，它们的值在索引前要经过分析器分析，并
且在全文搜索此字段前要把查询语句做分析处理。

对于 string 字段，两个最重要的映射参数是 index 和 analyer 。

index

index 参数控制字符串以何种方式被索引。

值	解释
analyzed	首先分析这个字符串，然后索引。换言之，以全文形式索引此字段。
not_analyzed	索引这个字段，使之可以被搜索，但是索引内容和指定值一样。不分析此字段。
no	不索引这个字段。这个字段不能为搜索到。

string 类型字段默认值是 analyzed 。如果想映射字段为确切值，需要设置它为 not_analyzed ：

{
"tag": {
"type": "string",
"index": "not_analyzed"
}
}

其他简单类型（long 、 double 、 date 等等）也接受 index 参数，但相应的值只能是 no 和 not_analyzed，它们的值不能被分析。

分析

对于 analyzed 类型的字符串字段，使用 analyzer 参数来指定哪一种分析器将在搜索和索引的时候使用。

默认使用 standard 分析器，但是可以通过指定一个内建的分析器来更改它，例如 whitespace 、 simple 或 english。

{
"tweet": {
"type": "string",
"analyzer": "english"
}
}

更新映射

可以在第一次创建索引的时候指定映射的类型。

也可以晚些时候为新类型添加映射（或者为已有的类型更新映射）。

重要
可以向已有映射中增加字段，但不能修改它。
如果一个字段在映射中已经存在，这可能意味着那个字段的数据已经被索引。
如果改变了字段映射，那已经被索引的数据将错误并且不能被正确的搜索到。

可以更新一个映射来增加一个新字段，但是不能把已有字段的类型那个从 analyzed 改到 not_analyzed 。

【举例】

① 删除索引 gb

DELETE /gb

② 创建一个新索引，指定 tweet 字段的分析器为 english

PUT /gb // 将创建包含 mappings 的索引，映射在请求体中指定
{
"mappings": {
"tweet" : {
   "properties" : {
   "tweet" : {
       "type" : "string",
       "analyzer": "english"
       },
       "date" : {
       "type" : "date"
       },
       "name" : {
       "type" : "string"
       },
       "user_id" : {
       "type" : "long"
       }
   }
   }
}
}

在 tweet 的映射中增加一个新的 not_analyzed 类型的文本字段，叫做 tag ，使用 _mapping 后

PUT /gb/_mapping/tweet
{
"properties" : {
"tag" : {
"type" : "string",
"index": "not_analyzed"
}
}
}

合并至存在的那个映射

测试映射

通过名字使用 analyze API测试字符串字段的映射

GET /gb/_analyze?field=tweet&text=Black-cats

GET /gb/_analyze?field=tag&text=Black-cats

1.6.复合核心字段类型

多值字段

{ "tag": [ "search", "nosql" ]}

对于数组不需要特殊的映射。任何一个字段可以包含零个、一个或多个值，同样对于全文字段将被分析并产生多个词。

数组中所有值必须为同一类型。不能把日期和字符窜混合。

当从Elasticsearch中取回一个文档，任何一个数组的顺序和索引它们的顺序一致。
取回的 _source 字段的顺序同样与索引的顺序相同。
然而，数组是做为多值字段被索引的，没有顺序。在搜索阶段不能指定“第一个值”或者“最后一个值”。

空字段

当然数组可以是空的。这等价于有零个值。事实上，Lucene没法存放 null 值，所以一个 null 值的字段被认为是空字段。

这四个字段将被识别为空字段而不被索引：

"empty_string": "",
"null_value": null,
"empty_array": [],
"array_with_null_value": [ null ]

多层对象

自然JSON数据类型是对象(object)

内部对象(inner objects)经常用于在另一个对象中嵌入一个实体或对象。

{
"tweet": "Elasticsearch is very flexible",
"user": {
"id": "@johnsmith",
"gender": "male",
"age": 26,
"name": {
"full": "John Smith",
"first": "John",
"last": "Smith"
}
}
}

内部对象的映射

{
"gb": {
"tweet": { // 根对象
"properties": {
"tweet": { "type": "string" },
"user": { // 内部对象
"type": "object",
"properties": {
"id": { "type": "string" },
"gender": { "type": "string" },
"age": { "type": "long" },
"name": { // 内部对象
"type": "object",
"properties": {
"full": { "type": "string" },
"first": { "type": "string" },
"last": { "type": "string" }
}
}
}
}
}
}
}
}

内部对象是怎样被索引的

Lucene 并不了解内部对象。一个 Lucene 文件包含一个键-值对应的扁平表单。

【文件格式（扁平化）】

{
"tweet": [elasticsearch, flexible, very],
"user.id": [@johnsmith],
"user.gender": [male],
"user.age": [26],
"user.name.full": [john, smith],
"user.name.first": [john],
"user.name.last": [smith]
}