Elasticsearch大文件检索性能提升20倍实践(干货)_elasticsearch 查询优化

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新软件测试全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上软件测试知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip1024b (备注软件测试)
img

正文

1)翻页到1000+页(每页10条数据)以上,响应时间会比较长。

2)当遇到某些文件的时候(事后分析得知是大文件),响应时间尤其长,超过30S以上返回高亮结果。

3、问题排查与定位

步骤1: 限定返回记录条数。不提供直接访问末页的入口。

baidu,360,搜狗等搜索引擎都不提供访问末页的请求方式。都是基于如下的请求方式:
通过点击上一下、下一页逐页访问。
这里写图片描述
这个从用户的角度也很好理解,搜索引擎返回的前面都是相关度最高的,也是用户最关心的信息。

Elasticsearch的默认支持的数据条数是10000条,可以通过post请求修改。

最终,本步骤将支持ES最大返回值10000条数据,每页10条,也就是共显示1000页数据。

步骤2,from size机制问题 ,大于设定页就会慢

【from + size机制】:当Elasticsearch响应请求时,它必须确定docs的顺序,排列响应结果。如果请求的页数较少(假设每页10个docs), Elasticsearch不会有什么问题,但是如果页数较大时,比如请求第100页,Elasticsearch不得不取出第1页到第100页的所有docs,再去除第1页到第99页的docs,得到第100页的docs。

【scroll机制】:相对于from和size的分页来说,使用scroll可以模拟一个传统数据的游标,记录当前读取的文档信息位置。这个分页的用法,不是为了实时查询数据,而是为了一次性查询大量的数据(甚至是全部的数据)。

因为这个scroll相当于维护了一份当前索引段的快照信息,这个快照信息是你执行这个scroll查询时的快照。在这个查询后的任何新索引进来的数据,都不会在这个快照中查询到。但是它相对于from和size,不是查询所有数据然后剔除不要的部分,而是记录一个读取的位置,保证下一次快速继续读取。

from+size方式以及scroll方式优缺点对比:

1)对于from+size方式:当结果足够大的时候,会大大加大内存和CPU的消耗。但,该方式使用非常方便。

2)对于scroll方式: 当结果足够大的时候, scroll 性能更佳。但是不灵活和 scroll_id 难管理问题存在。

【from网络】个人测试:当 结果足够大的时候 产生 scroll_id 性能也不低。如果只是一页页按照顺序,scroll是极好的,但是如果是无规则的翻页,那也是性能消耗极大的。

经过两种机制对比,加之步骤1,限定了分页数,最大1000页。并且用户支持主页翻页的方式,暂定还是采用from+size方式。

如果后面步骤有问题,再考虑换成scorll机制。

步骤3, 查看ES打印日志。

当出现卡顿、卡死等性能低、用户体验差问题时,查看ES的日志。
分析日志如下:
这里写图片描述
原因分析:卡顿、卡死都是堆内存设置不足导致。
根据之间总结的高性能配置建议,果断加堆内存,由16GB增加到最大值31GB。
堆内存使用比率可以通过:cerebro 工具检测性能。

步骤4:类似逆向解析dsl,排查查询慢在哪?

1) 打印出DSL,可以通过接口: searchSourceBuilder.toString()。

  1. 新增profile参数,查看到底哪里慢了。
    profile API的目的是:将ES高层的ES请求拉平展开,直观的让你看到请求做了什么,每个细分点花了多少时间。
    给你改善性能提供相关支撑工作。
    使用举例如下:
GET /_search
{
  "profile": true,
  "query" : {
    "match" : { "message" : "message number" }
  }
}

3) 换了全文接口api ,query_string改成match query满足要求且速度有提升。

4)删除某些查询条件,在基础数据不变的条件下,查看查询速度是否快了(返回时间短了)。

验证发现,当不返回content字段(_source控制)时,速度会变快。
当取消高亮字段处理,速度会更快。0.5秒之内返回结果。

至此,初步断定和高亮处理有关系。

步骤5:高亮问题排查及优化

通过论坛中网友的建议来看,都推荐对于大文件高亮使用: fast-vector-highlighter。

查询官网文档得知:
Elasticsearch高亮分为三种方式:

方式1:传统plain高亮方式。

官网明确支持,该方式匹配慢,如果出现性能问题,请考虑其他高亮方式。

方式2: postings 高亮方式。

支持postings高亮方式,需要在mapping下添加如下信息:

"type": "text",
"index\_options" : "offsets"

添加完毕后,posting高亮方式将取代传统的高亮方式。

posting高亮方式的特点:
1)速度快,不需要对高亮的文档再分析。文档越大,获得越高 性能 。
2)比fvh高亮方式需要的磁盘空间少。
3)将text文件分割成语句并对其高亮处理。对于自然语言发挥作用明显,但对于html则不然。
4)将文档视为整个语料库,并 使用BM25算法 为该语料库中的文档打分。
使用举例:

PUT /example
{
  "mappings": {
    "doc" : {
      "properties": {
        "comment" : {
          "type": "text",
          "index\_options" : "offsets"
        }
      }
    }
  }
}
方式3: fast-vector-highlighter 简称fvh高亮方式。

如果在mapping中的text类型字段下添加了如下信息:

"type": "text",
"term\_vector" : "with\_positions\_offsets"

fvh高亮方式将取代传统的plain高亮方式。

fvh高亮方式的特点如下:
1)当文件>1MB(大文件)时候,尤其适合fvh高亮方式。
2)自定义为 boundary_scanner的扫描方式。
3) 设定了 term_vector to with_positions_offsets会增加索引的大小。
4)能联合多字段匹配返回一个结果,详见matched_fields。
5)对于不同的匹配类型分配不同的权重,如:pharse匹配比term匹配高。
举例:

PUT /example
{
  "mappings": {
    "doc" : {
      "properties": {
        "comment" : {
          "type": "text",
          "term\_vector" : "with\_positions\_offsets"
        }
      }
    }


**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**需要这份系统化的资料的朋友,可以添加V获取:vip1024b (备注软件测试)**
![img](https://img-blog.csdnimg.cn/img_convert/0179be368533b2d6ad3cfaf4439bf074.jpeg)

**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**需要这份系统化的资料的朋友,可以添加V获取:vip1024b (备注软件测试)**
[外链图片转存中...(img-NABV551X-1713712511096)]

**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值