Elasticsearch学习（三）

最新推荐文章于 2024-04-21 20:23:20 发布

hero_zheng

最新推荐文章于 2024-04-21 20:23:20 发布

阅读量455

点赞数

分类专栏：搜索文章标签： elasticsearch 搜索引擎搜索

本文链接：https://blog.csdn.net/hero_zheng/article/details/52207396

版权

搜索专栏收录该内容

4 篇文章 0 订阅

订阅专栏

这篇文章主要是学习搜索使用

返回结构说明

hits

响应中最重要的部分是hits，它包含了total字段来表示匹配到的文档总数，hits数组还包含了匹配到的前10条数据。

hits数组中的每个结果都包含_index、_type和文档的_id字段，被加入到_source字段中这意味着在搜索结果中我们将可以直接使用全部文档。这不像其他搜索引擎只返回文档ID，需要你单独去获取文档。

每个节点都有一个_score字段，这是相关性得分(relevance score)，它衡量了文档与查询的匹配程度。默认的，返回的结果中关联性最大的文档排在首位；这意味着，它是按照_score降序排列的。这种情况下，我们没有指定任何查询，所以所有文档的相关性是一样的，因此所有结果的_score都是取得一个中间值1

max_score指的是所有文档匹配查询中_score的最大值。
took took告诉我们整个搜索请求花费的毫秒数。
shards
_shards节点告诉我们参与查询的分片数（total字段），有多少是成功的（successful字段），有多少的是失败的（failed字段）。通常我们不希望分片失败，不过这个有可能发生。如果我们遭受一些重大的故障导致主分片和复制分片都故障，那这个分片的数据将无法响应给搜索请求。这种情况下，Elasticsearch将报告分片failed，但仍将继续返回剩余分片上的结果。
timeout

time_out值告诉我们查询超时与否。一般的，搜索请求不会超时。如果响应速度比完整的结果更重要，你可以定义timeout参数为10或者10ms（10毫秒

空搜索

1. _search

最基本的搜索API表单是空搜索(empty search)，它没有指定任何的查询条件，只返回集群索引中的所有文档

{
  "took" : 2,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "failed" : 0
  },
  "hits" : {
    "total" : 1,
    "max_score" : 1.0,
    "hits" : [ {
      "_index" : "zhj",
      "_type" : "user",
      "_id" : "1",
      "_score" : 1.0,
      "_source" : {
        "first" : "dewmobile",
        "last" : "technology",
        "age" : 3000,
        "about" : "hello,world",
        "interest" : [ "basketball", "music" ]
      }
    } ]
  }
}

From / Size
edit Pagination of results can be done by using the from and size parameters. The from parameter defines the offset from the first result you want to fetch. The size parameter allows you to configure the maximum amount of hits to be returned.
Though from and size can be set as request parameters, they can also be set within the search body. from defaults to 0, and size defaults to 10.
详细参考：
https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-from-size.html

2. timeout
time_out值告诉我们查询超时与否。一般的，搜索请求不会超时。如果响应速度比完整的结果更重要，你可以定义timeout参数为10或者10ms（10毫秒），或者1s（1秒）

http://localhost:9200/zhj/user/_search?timeout=10ms&pretty

**Elasticsearch将返回在请求超时前收集到的结果。
注意的是timeout不会停止执行查询，它仅仅告诉你目前顺利返回结果的节点然后关闭连接。在后台，其他分片可能依旧执行查询，尽管结果已经被发送**

分页

http://localhost:9200/zhj/user/_search?size=10&from=0&pretty
http://localhost:9200/zhj/user/_search?size=10&pretty
http://localhost:9200/zhj/user/_search?from=0&pretty(默认返回size＝10)

⚠️注意

应该当心分页太深或者一次请求太多的结果。结果在返回前会被排序。但是记住一个搜索请求常常涉及多个分片。每个分片生成自己排好序的结果，它们接着需要集中起来排序以确保整体排序正确。
在集群系统中深度分页是有问题的，我们假设在一个有5个主分片的索引中搜索。当我们请求结果的第一页（结果1到10）时，每个分片产生自己最顶端10个结果然后返回它们给请求节点(requesting node)，它再排序这所有的50个结果以选出顶端的10个结果。

现在假设我们请求第1000页——结果10001到10010。工作方式都相同，不同的是每个分片都必须产生顶端的10010个结果。然后请求节点排序这50050个结果并丢弃50040个！
你可以看到在分布式系统中，排序结果的花费随着分页的深入而成倍增长。这也是为什么网络搜索引擎中任何语句不能返回多于1000个结果的原因。

Note that from + size can not be more than the index.max_result_window index setting which defaults to 10,000. See the Scroll API for more efficient ways to do deep scrolling.