ElasticSearch 之 搜索辅助功能

1. 返回指定的字段

  1. 考虑到性能问题,需要对搜索结果进行“瘦身”——指定返回的字段。
  2. 在ES中,通过_source子句可以设定返回结果的字段。_source指向一个JSON数组,数组中的元素是希望返回的字段名称。
GET /hotel/_search
{
  "_source": [
    "title",
    "city"
  ],
  "query": {
    "term": {
      "city": {
        "value": "北京"
      }
    }
  }
} 

在搜索结果中,每个命中文档的_source结构体中只包含指定的citytitle两个字段的数据。

2. 结果计数

  1. 为提升搜索体验,需要给前端传递搜索匹配结果的文档条数,即需要对搜索结果进行计数。
  2. 针对这个要求,ES提供了_countAPI功能,在该API中,用户提供query子句用于结果匹配,ES会返回匹配的文档条数。
GET /hotel/_count
{
  "query": {
    "term": {
      "city": {
        "value": "北京"
      }
    }
  }
} 

ES不仅返回匹配的文档数量,并且还返回和分片相关的元数据,如总共扫描的分片个数,以及成功、失败、跳过的分片个数等。

3. 结果分页

  1. 在实际的搜索应用中,分页是必不可少的功能。
  2. 在默认情况下,ES返回前10个搜索匹配的文档。
  3. 用户可以通过设置from和size来定义搜索位置和每页显示的文档数量,from表示查询结果的起始下标,默认值为0,size表示从起始下标开始返回的文档个数,默认值为10。
  4. 在默认情况下,用户最多可以取得10 000个文档,即from为0时,size参数最大为10 000,如果请求超过该值,ES返回报错信息。
  5. 对于普通的搜索应用来说,size设为10 000已经足够用了。如果确实需要返回多于10 000条的数据,可以适当修改max_result_window的值。
    PUT /hotel/_settings
    {
     "index": {
       "max_result_window": 20000
     }
    } 
    
  6. 注意,如果将配置修改得很大,一定要有足够强大的硬件作为支撑。
  7. 作为一个分布式搜索引擎,一个ES索引的数据分布在多个分片中,而这些分片又分配在不同的节点上。一个带有分页的搜索请求往往会跨越多个分片,每个分片必须在内存中构建一个长度为from+size的、按照得分排序的有序队列,用以存储命中的文档。然后这些分片对应的队列数据都会传递给协调节点,协调节点将各个队列的数据进行汇总,需要提供一个长度为number_of_shards*(from+size)的队列用以进行全局排序,然后再按照用户的请求从from位置开始查找,找到size个文档后进行返回。基于上述原理,ES不适合深翻页。什么是深翻页呢?简而言之就是请求的from值很大。在这里插入图片描述
    当深翻页的请求过多时会增加各个分片所在节点的内存和CPU消耗。尤其是协调节点,随着页码的增加和并发请求的增多,该节点需要对这些请求涉及的分片数据进行汇总和排序,过多的数据会导致协调节点资源耗尽而停止服务。
  8. 作为搜索引擎,ES更适合的场景是对数据进行搜索,而不是进行大规模的数据遍历。一般情况下,只需要返回前1000条数据即可,没有必要取到10 000条数据。如果确实有大规模数据遍历的需求,可以参考使用scroll模式或者考虑使用其他的存储引擎。

4. 性能分析

  1. 在使用ES的过程中,有的搜索请求的响应可能比较慢,其中大部分的原因是DSL的执行逻辑有问题。
  2. ES提供了profile功能,该功能详细地列出了搜索时每一个步骤的耗时,可以帮助用户对DSL的性能进行剖析。
  3. 开启profile功能只需要在一个正常的搜索请求的DSL中添加"profile":"true"即可。
  4. 在带有profile的返回信息中,除了包含搜索结果外,还包含profile子句,在该子句中展示了搜索过程中各个环节的名称及耗时情况。
  5. 需要注意的是,使用profile功能是有资源损耗的,建议用户只在前期调试的时候使用该功能,在生产中不要开启profile功能。
  6. 因为一个搜索可能会跨越多个分片,所以使用shards数组放在profile子句中。每个shard子句中包含3个元素,分别是id、searches和aggregations。
    1. id表示分片的唯一标识,它的组成形式为[nodeID][indexName][shardID]
    2. searches以数组的形式存在,因为有的搜索请求会跨多个索引进行搜索。每一个search子元素即为在同一个索引中的子查询,此处不仅返回了该search子元素耗时的信息,而且还返回了搜索“金都”的详细策略,即被拆分成“title:金”和“title:都”两个子查询。同理,children子元素给出了“title:金”、“title:都”的耗时和详细搜索步骤的耗时。
    3. aggregations只有在进行聚合运算时才有内容。
  7. 如果查询比较复杂或者命中的分片比较多,profile返回的信息将特别冗长。在这种情况下,用户进行性能剖析的效率将非常低。
  8. 为此,Kibana提供了可视化的profile功能,该功能建立在ES的profile功能基础上。在Kibana的Dev Tools界面中单击Search Profiler链接,就可以使用可视化的profile了。

5. 评分分析

  1. 在使用搜索引擎时,一般都会涉及排序功能。
  2. 如果用户不指定按照某个字段进行升序或者降序排列,那么ES会使用自己的打分算法对文档进行排序。
  3. 有时我们需要知道某个文档具体的打分详情,以便于对搜索DSL问题展开排查。
  4. ES提供了explain功能来帮助使用者查看搜索时的匹配详情。
    GET /${index_name}/_explain/${doc_id} 
    { "query": 
     { //搜索的具体逻辑} 
    } 
    
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Elasticsearch 和 HBase 都是流行的大数据处理工具,可以被集成在一起使用以满足特定的需求。 Elasticsearch 是一个开源的实时分布式搜索和分析引擎,主要用于存储、搜索和分析海量的非结构化和半结构化数据。它具有高可扩展性、性能优越和易于使用的特点,适用于日志分析、全文搜索、指标分析等场景。与其相比,HBase 是一个开源的分布式列存储系统,具有极高的读写性能和大规模扩展性,适用于存储和处理海量结构化数据。 将 Elasticsearch 和 HBase 集成在一起可以发挥两者的优势。可以使用HBase作为Elasticsearch的数据源,将结构化数据存储在HBase中,通过Elasticsearch进行数据的实时搜索和分析。这种集成方式可以兼顾结构化和非结构化数据的处理需求,使得数据的存储和查询更加高效和灵活。 此外,由于Elasticsearch具有分布式的特点,通过与HBase的集成,可以进一步提升数据的容错性和可扩展性。采用HBase作为Elasticsearch的数据存储后端,可以通过HBase内置的负载均衡和数据分区功能将数据分散存储在不同的节点上,实现数据的高可用和分布式处理。同时,HBase从设计上支持横向扩展,可以轻松地扩展存储容量和吞吐量,满足不断增长的数据处理需求。 综上所述,Elasticsearch和HBase的集成可以充分发挥两者的优势,实现对结构化和非结构化数据的高效存储、索引和查询。这种集成方式可以应用于各种领域,如日志分析、在线广告、电子商务等,为用户提供更好的数据处理和分析能力。 ### 回答2: Elasticsearch和HBase是两种不同的开源分布式数据库系统。它们各自有不同的特点和适用场景。 Elasticsearch是一个全文搜索引擎,用于快速、实时地搜索和分析大量数据。它基于Lucene库构建,提供了分布式的搜索和分析功能Elasticsearch支持实时索引和搜索,适用于需要快速查询和高可用性的场景。它在海量数据上表现出色,并具有良好的扩展性和可靠性。 而HBase则是一个分布式、可扩展的列式数据库,用于存储大规模结构化数据。它基于Hadoop的HDFS文件系统,适用于需要高度可靠性和扩展性的大数据存储场景。HBase支持面向列的数据存储和查询,并提供ACID事务保障。它适用于需要大规模并发读写和随机访问的场景。 当需要将Elasticsearch和HBase集成时,通常是为了利用它们各自的优势来满足复杂的应用需求。例如,可以使用HBase来存储大规模的结构化数据,同时使用Elasticsearch进行实时搜索和分析。在这种集成方案中,HBase作为数据存储层,而Elasticsearch用于提供高效的实时搜索和查询功能。 通过将两者集成,可以在HBase上存储大规模的数据,同时使用Elasticsearch进行快速的全文搜索和分析。这种集成方案可以使得数据的存储和查询具备更高的效率和性能。同时,由于Elasticsearch具有良好的可伸缩性和高可用性,因此还可以提高系统的稳定性和容错性。 总而言之,Elasticsearch和HBase的集成可以为大规模数据存储和实时搜索需求提供一个理想的解决方案。这种集成方案可以充分发挥两者的优势,提供高效、可靠的数据存储和搜索能力,满足复杂的应用场景需求。 ### 回答3: Elasticsearch和HBase是两个开源的分布式数据存储和搜索系统,具有不同的特点和应用场景。他们可以相互集成,以提供更强大的数据存储和搜索能力。 首先,Elasticsearch是一个用于全文搜索和分析的分布式实时搜索引擎。它可以通过将数据索引到倒排索引中,以高效地执行全文搜索、实时分析和数据聚合。Elasticsearch还具有分布式的架构,能够自动处理数据的分片和复制,并实现高可用性。它还提供了灵活的查询语言和API,以便于开发者进行复杂的搜索和分析操作。 而HBase是一个建立在Hadoop上的分布式列式数据库。它以Hadoop的分布式文件系统HDFS作为底层存储,支持海量数据的存储和处理。HBase具有强大的随机读写能力,并且是一个高度可扩展的系统。它适用于需要快速随机访问大规模结构化数据的应用场景,例如日志分析、订单处理等。 集成Elasticsearch和HBase可以利用它们各自的优势,实现更丰富的数据存储和搜索功能。一种常见的方案是使用HBase作为主数据存储,而使用Elasticsearch作为辅助索引和搜索引擎。当数据变更时,可以将数据同步到Elasticsearch中进行实时索引更新,以支持更快速的全文搜索和复杂的查询分析。这样一方面可以保证数据的高可靠性和可扩展性,另一方面可以提供更优秀的搜索性能和用户体验。 总而言之,Elasticsearch和HBase可以通过集成实现更强大的数据存储和搜索能力。这种集成方案可以根据实际应用场景的需要进行灵活的设计和部署,为用户提供更好的数据分析和搜索体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Kuo-Teng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值