2024年大数据最全ElasticSearch相关知识(5)

最新推荐文章于 2024-09-15 01:19:00 发布

2401_84182636

最新推荐文章于 2024-09-15 01:19:00 发布

阅读量1k

点赞数 13

分类专栏：程序员文章标签：大数据 elasticsearch 搜索引擎

本文链接：https://blog.csdn.net/2401_84182636/article/details/138395057

版权

程序员专栏收录该内容

126 篇文章 1 订阅

订阅专栏

text 用于索引全文值的字段，例如电子邮件正文或产品说明。这些字段是analyzed，它们通过分词器传递，以在被索引之前将字符串转换为单个术语的列表。分析过程允许Elasticsearch搜索单个单词中每个完整的文本字段。文本字段不用于排序，很少用于聚合（尽管重要的文本聚合是一个值得注意的例外）。

keyword 用于索引结构化内容的字段，例如电子邮件地址，主机名，状态代码，邮政编码或标签。它们通常用于过滤，排序，和聚合。keyword字段只能按其确切值进行搜索。如果您需要索引电子邮件正文或产品说明等全文内容，则可能应该使用text字段。

有时候一个字段同时拥有全文类型（text）和关键字类型（keyword）是有用的：一个用于全文搜索，另一个用于聚合和排序。这可以通过多字段类型来实现

复杂数据类型

Geo数据类型

地理点数据类型
geo_point 对于纬度/经度点
Geo-Shape数据类型
geo_shape 对于像多边形这样的复杂形状

专用数据类型

有时候单纯的一个字段类型满足不了我们复杂的需求，为了不同的目的，以不同的方式索引同一个字段通常很有用。多字段也是ES的一种数据类型，只不过结合了更多的功能。

例如，对于字符串字段，我们既可以将它映射为text类型用于全文搜索，亦可以将它映射为keyword类型用于排序或聚合，或者，还可以使用标准分词器、英语分词器和其他语言分词器索引文本字段，大多数数据类型都通过**fields参数**支持多字段。例如对于城市名称的多字段映射

PUT my_index
{
  "mappings": {
    "_doc": {
      "properties": {
        "cityName": {
          "type": "text",
          "fields": {
            "raw": { 
              "type":  "keyword"
            }
          }
        }
      }
    }
  }
}

映射（mapping）

映射是定义一个文档及其包含的字段如何存储和索引的过程。例如，使用映射来定义：

应将哪些字符串字段视为全文字段。
哪些字段包含数字，日期或地理位置。
是否应将文档中所有字段的值索引到catch-all _all字段中。
日期值的格式。
自定义规则以控制动态添加字段的映射。

映射是用于定义ES对索引中字段的存储类型、分词方式和是否存储等信息，就像数据库中的 schema ，描述了文档可能具有的字段或属性、每个字段的数据类型。只不过关系型数据库建表时必须指定字段类型，而ES对于字段类型可以不指定然后动态对字段类型猜测，也可以在创建索引时具体指定字段的类型

对字段类型根据数据格式自动识别的映射称之为动态映射（Dynamic mapping），我们创建索引时具体定义字段类型的映射称之为静态映射或显示映射（Explicit mapping）

为什么我们创建索引时需要建立静态映射而不使用动态映射?

通过对字段类型的了解我们知道有些字段需要明确定义的，例如某个字段是text类型还是keword类型差别是很大的，时间字段也许我们需要指定它的时间格式，还有一些字段我们需要指定特定的分词器等等。如果采用动态映射是不能精确做到这些的，自动识别常常会与我们期望的有些差异。

所以创建索引给的时候一个完整的格式应该是指定分片和副本数以及Mapping的定义

PUT my_index 
{
   "settings" : {
      "number_of_shards" : 5,
      "number_of_replicas" : 1
   }
  "mappings": {
    "_doc": { 
      "properties": { 
        "title":    { "type": "text"  }, 
        "name":     { "type": "text"  }, 
        "age":      { "type": "integer" },  
        "created":  {
          "type":   "date", 
          "format": "strict_date_optional_time||epoch_millis"
        }
      }
    }
  }
}

ES的两种查询方式

一个是通过使用 RESTrequestURl 发送搜索参数(uri+检索参数)

另一个是通过使用RESTrequestbody 来发送它们(uri请求体)

queryDSL查询语言

ES读取数据的详细流程

1、根据id值进行查找 GET /[index]/_doc/[_id]

1、转发给协调节点

2、协调节点找到对应id的数据分片，将请求转发给该分片对应的节点

3、节点处理请求并交给协调节点（唯一id所以不需要排序）

4、协调节点再转发给客户端

2、根据字段值检索对应的数据 GET /index]/ search?q=[field]: [value]

先找到对应的id，再查找对应的数据

1、转发给协调节点

2、协调节点进行分词等操作，向所有分片的节点查询数据

3、节点处理请求并将数据id交给协调节点

4、协调节点再根据id查找对应的分片找到对应的节点

5、各节点找到对应的数据给协调节点

6、此时可能存在多个id对应的数据（文档）存在该字段，需要进行排序汇总

4、协调节点再转发给客户端

ES写入数据的详细流程

ES的更新和删除流程

ElasticSearch 如何保证数据一致性

乐观并发控制 - 版本号

ES 数据并发冲突控制是基于的乐观锁和版本号的机制

一个document第一次创建的时候，它的_version内部版本号就是1；以后，每次对这个document执行修改或者删除操作，都会对这个_version版本号自动加1；哪怕是删除，也会对这条数据的版本号加1(假删除)。

客户端对es数据做更新的时候，如果带上了版本号，那带的版本号与es中文档的最新版本号一致才能修改成功，否则抛出异常。如果客户端没有带上版本号，首先会读取最新版本号才做更新尝试，这个尝试类似于CAS操作，可能需要尝试很多次才能成功。乐观锁的好处是不需要互斥锁的参与。

es节点更新之后会向副本节点同步更新数据(同步写入)，直到所有副本都更新了才返回成功。

乐观并发控制 - 外部系统

版本号（version）只是其中一个实现方式，我们还可以借助外部系统使用版本控制，一个常见的设置是使用其它数据库作为主要的数据存储，使用 Elasticsearch 做数据检索，这意味着主数据库的所有更改发生时都需要被复制到 Elasticsearch ，如果多个进程负责这一数据同步，你可能遇到类似于之前描述的并发问题。

如果你的主数据库已经有了版本号，或一个能作为版本号的字段值比如 timestamp，那么你就可以在 Elasticsearch 中通过增加 version_type=external到查询字符串的方式重用这些相同的版本号，版本号必须是大于零的整数，且小于 9.2E+18(一个 Java 中 long 类型的正值)。

外部版本号的处理方式和我们之前讨论的内部版本号的处理方式有些不同， Elasticsearch 不是检查当前 _version 和请求中指定的版本号是否相同，而是检查当前_version 是否小于指定的版本号。如果请求成功，外部的版本号作为文档的新_version 进行存储。

外部版本号不仅在索引和删除请求是可以指定，而且在创建新文档时也可以指定。

例如，要创建一个新的具有外部版本号 5 的博客文章，我们可以按以下方法进行：

PUT /website/blog/2?version=5&version_type=external
{
  "title": "My first external blog entry",
  "text":  "Starting to get the hang of this..."
}

在响应中，我们能看到当前的 _version 版本号是 5 ：

{
  "_index":   "website",
  "_type":    "blog",
  "_id":      "2",
  "_version": 5,
  "created":  true
}

现在我们更新这个文档，指定一个新的 version 号是 10 ：

PUT /website/blog/2?version=10&version_type=external
{
  "title": "My first external blog entry",
  "text":  "This is a piece of cake..."
}

请求成功并将当前 _version 设为 10 ：

{
  "_index":   "website",
  "_type":    "blog",
  "_id":      "2",
  "_version": 10,
  "created":  false
}

如果你要重新运行此请求时，它将会失败，并返回像我们之前看到的同样的冲突错误，因为指定的外部版本号不大于 Elasticsearch 的当前版本号

近实时性搜索

索引是写入到磁盘的过程是这怎样的？是否是直接调 fsync 物理性地写入磁盘？

ES并没有每新增一条数据就增加一个段到磁盘上，而是采用延迟写的策略

每当有新增的数据时，就将其先写入到内存中，在内存和磁盘之间是文件系统缓存（FileSystem cache），当达到默认的时间（1秒钟）或者内存的数据达到一定量时，会触发一次刷新（Refresh），将内存中的数据生成到一个新的段(segment)上并缓存到文件缓存系统上，稍后再被刷新到磁盘中并生成提交点。