elasticsearch 其他字段类型详解和范例

最新推荐文章于 2024-02-21 11:47:36 发布

张同学tty

最新推荐文章于 2024-02-21 11:47:36 发布

阅读量1.1k

点赞数

分类专栏： elasticsearch 文章标签： elasticsearch 搜索引擎大数据全文检索 java

本文链接：https://blog.csdn.net/juedaifenghua2/article/details/130071719

版权

elasticsearch 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

本章主要内容

elasticsearch 中别名字段的详解和范例
elasticsearch 中二进制类型的详解和范例
elasticsearch 中的嵌套类型的详解和范例
elasticsearch 中的范围类型的详解和范例
elasticsearch 中的排名类型的详解和范例
elasticsearch 中的ip类型的详解和范例
elasticsearch 中的search-as-you-type 类型 的详解和范例
elasticsearch 中的token_count 类型 的详解和范例

概要

本篇文章主要讲解elasticsearch在业务中经常用到的字段类型，通过大量的范例来学习和理解不同字段类型的应用场景。范例elasticsearch使用的版本为7.17.5。

简述

在Elasticsearch的映射关系中，每个字段都对应一个数据类型或者字段类型，这些类型规范了字段存储的值和用途。

内容

elasticsearch 中别名字段的详解

alias（别名）类型可以为索引中的字段定义一个替代名称。

elasticsearch 中别名字段的范例

#创建名为userinfo的索引库并为其创建映射关系
PUT userinfo
{
  "mappings": {
    "properties": {
      "age": {
        "type": "long"
      },
      "aliasage": {
        "type": "alias",
        "path": "age"
      },
      "transit_mode": {
        "type": "keyword"
      }
    }
  }
}

这是一个创建名为"userinfo"的索引的请求。该索引定义了三个字段：
- "age"字段，它是一个长整型字段。它存储用户的年龄信息。
- "aliasage"字段，它是一个别名类型的字段。它通过指定"age"字段的路径作为别名的路径，将"aliasage"字段与"age"字段关联在一起。这样，对"aliasage"字段的搜索、聚合和排序操作将与对"age"字段进行的操作一样。
- "transit_mode"字段，它是一个关键字类型的字段。它存储用户的交通方式信息。

#以上语句创建了userinfo索引库，而且为age字段创建了名为aliasage的别名。
#在索引库userinfo中插入一条文档数据
PUT userinfo/_doc/1
{
  "age": 39,
  "transit_mode": "transit_mode"
}

#通过年龄查询大于30的用户信息
GET userinfo/_doc/_search
{
  "query": {
    "range": {
      "age": {
        "gte": 30
      }
    }
  }
}

#通过别名查询年龄大于30的用户信息
GET userinfo/_doc/_search
{
  "query": {
    "range": {
      "aliasage": {
        "gte": 30
      }
    }
  }
}

#通过年龄、别名查询返回的结果信息如下
{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 1.0,
    "hits" : [
      {
        "_index" : "userinfo",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 1.0,
        "_source" : {
          "age" : 39,
          "transit_mode" : "transit_mode"
        }
      }
    ]
  }
}

需要注意的是，别名字段只能作为查询的目标，而不能作为源字段。也就是说，你不能将文档数据写入"aliasage"字段，只能写入"age"字段。另外，别名的路径也必须指向实际存在的字段。如果路径指向的字段不存在，则会发生错误。

elasticsearch 中二进制类型的详解

在 Elasticsearch 中，二进制字段的数据必须是 Base64 编码的字符串。这是因为 Elasticsearch 使用 JSON 作为其数据交换格式，而 JSON 不支持原始二进制数据。通过将二进制数据转换为 Base64 编码的字符串，可以确保数据在传输过程中不会出现问题。
在 Elasticsearch 中，二进制类型（binary）用于存储和检索原始的二进制数据。通常情况下，Elasticsearch 主要用于处理结构化或半结构化的文本数据，但在某些场景下，您可能需要处理二进制数据，例如图片、音频、视频或其他非文本数据。在这种情况下，您可以使用二进制类型将这些数据存储在 Elasticsearch 中。

elasticsearch 中二进制类型的范例

#创建索引映射并指定blob字段的类型为二进制类型
PUT myindex-2_02
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text"
      },
      "blob": {
        "type": "binary"
      }
    }
  }
}

#在索引库中插入数据，blob的内容是Base64编码的字符串
PUT myindex-2_02/_doc/1
{
  "name":"Some binary blob",
  "blob":"c2FkZw=="
}

需要注意的是，二进制类型字段不支持全文搜索功能，因为这些字段存储的数据通常不是文本数据。此外，在处理大量的二进制数据时，Elasticsearch 的性能可能会受到影响。因此，在使用二进制类型时，请确保您了解其限制，并确保 Elasticsearch 适用于您的用例。
最后，请记住，Elasticsearch 不是专门针对存储和检索大量二进制数据而设计的。根据您的需求，您可能需要评估其他数据存储解决方案（如分布式文件系统或对象存储），这些解决方案可能更适合处理大量二进制数据。在这种情况下，您可以将 Elasticsearch 用于存储和搜索元数据，而将实际的二进制数据存储在其他系统中。

elasticsearch 中的嵌套类型的详解

嵌套类型用于在 Elasticsearch 文档中表示对象数组，它允许您对数组中的对象进行独立查询和过滤。这是处理具有父子关系或层次结构的数据非常有用的方法。

elasticsearch 中的嵌套类型的范例

定义嵌套类型：在 Elasticsearch 的映射中，通过将字段类型设置为 "nested"，可以定义嵌套类型

#创建索引映射并指定user字段为一个嵌套类型
PUT myindex-2_07
{
  "mappings": {
    "properties": {
      "user":{
        "type": "nested"
      }
    }
  }
}

索引嵌套文档：使用嵌套类型时，可以将多个对象作为数组索引到 Elasticsearch 中。

#在索引库中插入文档数据，user字段中嵌套了键值对
PUT myindex-2_07/_doc/1
{
  "group": "fans",
  "user": [
    {
      "first": "John",
      "last": "Smith"
    },
    {
      "first": "Alice",
      "last": "White"
    }
  ]
}

查询嵌套文档：要查询嵌套文档，需要使用 "nested" 查询。

#查询user索引库字段中user.first的值是Alice以及User.last的值是Smith的结果
GET myindex-2_07/_search
{
  "query": {
    "nested": {
      "path": "user",
      "query": {
        "bool": {
          "must": [
            {
              "match": {
                "user.first": "Alice"
              }
            },
            {
              "match": {
                "user.last": "Smith"
              }
            }
          ]
        }
      }
    }
  }
}

以上查询语句中需要注意的是，利用嵌套字段进行筛选查询时，必须两个字段值都要符合条件，如果其中一个字段值不满足查询条件，则从索引库中查询不到任何数据，执行结果如图所示：
嵌套类型在处理具有复杂关系的文档时非常有用。使用嵌套类型，可以在 Elasticsearch 中更有效地查询和过滤对象数组，并获取所需的详细信息。

elasticsearch 中的范围类型的详解

范围类型 (range type) 是 Elasticsearch 中一种特殊的字段类型，它可以表示一个连续的范围或间隔.
range（范围）类型表示介于上限和下限之间的连续值范围，可以使用运算符gt(大于)、gte(大于等于)、lt(小于)、lte(小于等于)定义存储文档的数据范围。每一种范围类型的说明表如下：

范围类型	说明
integer_range	表示由符号的32位整数
float_range	表示单精度浮点数
long_range	表示有符号的64位整数
double_range	表示双精度浮点数
date_range	表示日期范围，可以通过format映射参数支持各种日期格式。无论使用哪种格式，日期值都会被解析为一个无符号的64位整数，该整数为纪元以来的毫秒数。
ip_range	表示IPv4或IPv6地址的一系列IP值

范围类型的主要应用场景是对某个范围内的值进行查询和过滤。例如，查找生产日期在特定日期范围内的商品，或者查找价格在特定范围内的房屋等。

elasticsearch 中的范围类型的范例

#创建索引映射，并指定expected_attendees字段类型为整数范围类型，time_frame字段类型为日期范围类型
PUT myindex-2_08
{
  "mappings": {
    "properties": {
      "expected_attendees": {
        "type": "integer_range"
      },
      "time_frame":{
        "type": "date_range",
        "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
      }
    }
  }
}

#插入文档数据
PUT myindex-2_08/_doc/1?refresh
{
  "expected_attendees":{
    "gte":10,
    "lt":20
  },
  "time_frame":{
    "gte":"2021-10-31 12:00:00",
    "lte":"2021-11-01"
  }
}

查询满足expected_attendees字段中数据范围内包含12的文档数据

GET myindex-2_08/_search
{
  "query": {
    "term": {
      "expected_attendees": {
        "value": "12"
      }
    }
  }
}

根据日期范围查询符合条件的文档数据

#根据日期范围查询符合条件的文档数据
GET myindex-2_08/_search
{
  "query": {
    "range": {
      "time_frame": {
        "gte": "2021-10-31",
        "lte": "2021-11-01",
        "relation": "within"
      }
    }
  }
}

由以上结果可知，只要范围类型字段的内容包含在筛选的范围内，就会返回当前文档的内容。
总之，Elasticsearch 中的范围类型提供了对连续范围或间隔的查询和过滤功能，支持整数、长整数、浮点数、双精度浮点数、日期和 IP 地址等多种数据类型。这使得在特定范围内对数据进行筛选和分析变得更加简单和高效。

elasticsearch 中的排名类型的详解

rank_feature(排名)类型的字段可以存储数字，并且对搜索文档的分数有所影响（搜索文档的分数就是用户搜索的内容和搜索返回文档的匹配度，分数越高，就表示匹配度越高）
这种字段类型在特定场景下非常有用，例如，当您需要根据某些特征对文档进行排序时。例如，电商网站中的产品排名，根据销量、评价等特征对产品进行排序。
rank_feature 字段的主要优势在于它可以在查询时高效地为文档评分。Elasticsearch 会在索引时预先计算相关的评分数据，从而加快查询性能。

elasticsearch 中的排名类型的范例

#创建索引映射并将"pagerank"和"topics"这两个字段类型分别指定为"rank_feature"类型和"rank_features"类型
PUT myindex-2_10
{
  "mappings": {
    "properties": {
      "pagerank":{
        "type": "rank_feature"
      },
      "url_length":{
        "type": "rank_feature",
        "positive_score_impact":false
      },
      "topics":{
        "type": "rank_features"
      }
    }
  }
}

#在索引库中插入数据
PUT myindex-2_10/_doc/1
{
  "url": "http://en.wikipedia.org/wiki/2016_Summer_Olympics",
  "content": "Rio 2016",
  "pagerank": 50.3,
  "url_length": 42,
  "topics": {
    "sports": 50,
    "brazil": 30
  }
}

#在索引库中插入数据
PUT myindex-2_10/_doc/2
{
  "url": "http://en.wikipedia.org/wiki/2016_Brazilian_Grand_Prix",
  "content": "Formula One motor race held on 13 November 2016 at the Autodromo Jose Carlos Pace in Sao Paulo,Brazil",
  "pagerank": 50.3,
  "url_length": 47,
  "topics": {
    "sports": 50,
    "brazil": 20,
    "formula one":65
  }
}

#在索引库中插入数据
PUT myindex-2_10/_doc/3
{
  "url": "http://en.wikipedia.org/wiki/Deadpool_(film)",
  "content": "Deadpool is a 2016 American superhero film",
  "pagerank": 50.3,
  "url_length": 37,
  "topics": {
    "movies":60,
    "super hero":65
  }
}

#查询索引库的content字段值中包含"2016"的文档，并根据评分（score字段的值）排序输出
GET myindex-2_10/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "content": "2016"
          }
        }
      ],
      "should": [
        {
          "rank_feature": {
            "field": "pagerank"
          }
        },
        {
          "rank_feature": {
            "field": "url_length",
            "boost": 0.1
          }
        },
        {
          "rank_feature": {
            "field": "topics.sports",
            "boost": 0.4
          }
        }
      ]
    }
  }
}

返回的查询结果如图：
由以上语句可知，rank_feature字段类型和rank_feaures字段类型只能搭配rank_feature参数进行查询。

elasticsearch 中的ip类型的详解

IP 类型用于存储和搜索 IPv4 和 IPv6 地址。它允许您高效地索引和查询 IP 地址数据，因此在处理网络日志、安全分析等场景时非常有用。
IP 类型的字段定义如下：

{
  "mappings": {
    "properties": {
      "ip_field": {
        "type": "ip"
      }
    }
  }
}

elasticsearch 中的ip类型的范例

存储和查询 IPv4 和 IPv6 地址。Elasticsearch 可以处理 IPv4 和 IPv6 地址。

PUT my-index/_doc/1
{
  "ip_field": "192.168.1.1"
}

PUT my-index/_doc/2
{
  "ip_field": "2001:0db8:85a3:0000:0000:8a2e:0370:7334"
}

范围查询。您可以使用范围查询来查找特定 IP 地址范围内的文档。

GET my-index/_search
{
  "query": {
    "range": {
      "ip_field": {
        "gte": "192.168.1.1",
        "lte": "192.168.1.10"
      }
    }
  }
}

CIDR 符号。您还可以使用 CIDR 符号来查询特定子网内的 IP 地址。

GET my-index/_search
{
  "query": {
    "term": {
      "ip_field": "192.168.1.0/24"
    }
  }
}

排序和聚合。Elasticsearch 允许您根据 IP 地址对结果进行排序和聚合。

GET my-index/_search
{
  "sort": [
    {
      "ip_field": {
        "order": "asc"
      }
    }
  ]
}

注意事项：
- IP 类型只能用于存储 IP 地址。不要将其用于其他类型的数据。
- 如果您的数据包含可能包含非 IP 地址的字符串，请在索引之前进行清理或使用关键字类型进行索引。
总之，Elasticsearch 中的 IP 类型为处理 IP 地址数据提供了丰富的功能，使得在网络分析、安全监控等场景中非常实用。

elasticsearch 中的search-as-you-type 类型的详解

search_as_you_type字段类型和text字段类型很相似，Elasticsearch对其进行了优化，为用户提供了开箱即用的功能。search_as_you_type字段类型的字段可以创建一系列的子字段
Search-as-you-type 是 Elasticsearch 中的一种特殊字段类型，用于实现实时的、基于部分输入的搜索建议功能。这种类型通过对输入的数据进行分析和索引，使得用户在输入查询的过程中就能看到相关的搜索建议。
search-as-you-type 字段类型的主要特点如下：
- 分词器（Tokenizer）和分析器（Analyzer）：为了实现部分匹配，search-as-you-type 字段类型使用了一种特殊的分词器和分析器。它们能够将输入的文本划分为多个递增的令牌（token），从而实现部分匹配。这些令牌会被存储在倒排索引中，以便在搜索时匹配。
- 边缘 N-gram：为了提高搜索建议的相关性，search-as-you-type 字段类型使用了边缘 N-gram 技术。这种技术可以将输入的文本切分成一个个递增的子字符串，从而在搜索时能够实现部分匹配。这对于处理拼写错误、缩写或其他输入不完整的情况非常有用。
- 实时性：search-as-you-type 字段类型提供了实时的搜索建议功能，这意味着当用户输入查询时，系统会立即返回与部分输入匹配的建议。这种实时性可以帮助用户更快地找到他们想要的信息，提高搜索体验。

elasticsearch 中的search-as-you-type 类型的范例

为了使用 search-as-you-type 字段类型，你需要在映射（mapping）中定义该字段。例如：

{
  "mappings": {
    "properties": {
      "title": {
        "type": "search_as_you_type"
      }
    }
  }
}

当执行下面的映射模板时，将会为my_field字段创建下表中的所有字段作为其子字段。

创建的字段	说明
my_field	按照映射中的配置进行分析，如果未配置分词器，则使用索引的默认分词器
my_field._2gram	用大小为2的shingle token filter 分词器对 ny_field进行分词
my_field._3gram	用大小为3的shingle token filter 分词器对 ny_field进行分词
my_field._index_prefix	用edge ngram token filter 打包 my_field._3gram的分词器

在这个例子中，我们为文档的 "title" 字段定义了 search-as-you-type 类型。之后，在索引文档时，Elasticsearch 会自动使用相应的分析器和分词器处理该字段。
当你要查询 search-as-you-type 字段时，可以使用 "multi_match" 查询类型，并指定 "type" 为 "bool_prefix"。例如：

{
  "query": {
    "multi_match": {
      "query": "search text",
      "type": "bool_prefix",
      "fields": [
        "title",
        "title._2gram",
        "title._3gram"
      ]
    }
  }
}

这个查询会在 "title" 字段及其 N-gram 子字段上执行部分匹配查询，返回与输入文本匹配的文档。这样，用户就可以在输入过程中获得相关的搜索建议。
总之，search-as-you-type 字段类型是 Elasticsearch 中一种实现实时搜索建议功能的有效方式。通过使用特殊的分词器

elasticsearch 中的token_count 类型的详解

token_count（令牌计数）类型的字段实际上是一个integer类型字段，它可以对内容进行分词分析，存储内容被分词的数量
用途：token_count 类型用于计算给定文本中的词元数量。它通常与 text 类型字段一起使用，因为这些字段包含实际的文本数据。
分析器：您可以为 token_count 类型指定一个分析器。分析器负责将文本拆分为词元。在默认情况下，Elasticsearch 使用标准分析器。如果需要，可以自定义分析器来满足特定的需求。
需要注意的是，token_count 类型不适用于全文搜索，而主要用于过滤、排序和聚合操作。此外，词元数量不会随着文本的变化而更新，因此，如果文本内容发生更改，需要重新索引文档以更新词元计数。

elasticsearch 中的token_count 类型的范例

#创建索引映射,给name字段添加子对象，其名称是length,类型是token_count,使用standard分词器进行分词
PUT myindex-tokencount
{
  "mappings": {
    "properties": {
      "name":{
        "type": "text", 
        "fields": {
          "length":{
            "type":"token_count",
            "analyzer":"standard"
          }
        }
      }
    }
  }
}

#添加文档数据
PUT myindex-tokencount/_doc/1
{
  "name":"John Smith"
}

#添加文档数据
PUT myindex-tokencount/_doc/2?pretty
{
  "name":"Rachel Alice Williams"
}

PUT myindex-tokencount/_doc/3
{
  "name":"长大"
}

#查询索引库中name字段被分词后,分词的数量等于2的文档
GET myindex-tokencount/_search
{
  "query": {
    "term": {
      "name.length": {
        "value": "2"
      }
    }
  }
}

可以看到"John Smith"被standard分词为"John"和"Smith"，所以分词数量是2。上面的返回结果符合预期。在查询过程中，我们还可以使用分析语句对查询的内容进行预判分析，范例如下：

#使用standard分词器对内容"John Smith"进行分词处理,返回分词后的结果
GET myindex-tokencount/_analyze
{
  "analyzer": "standard",
  "text":["John Smith"]
}

以上结果与我们预想的一样，"Joh Smith"被分词成两个单词，还记录了具体分词的单词在原始内容的偏移量。