架构设计内容分享(二十四)：10亿级ES海量搜索狂飙10倍，该怎么办？

之乎者也·

已于 2023-12-22 08:30:54 修改

阅读量1.3k

点赞数 19

分类专栏：架构设计内容分享 ElasticSearch 内容分享文章标签：极兔面试 ES 架构设计

于 2023-12-22 08:30:28 首次发布

本文链接：https://blog.csdn.net/qq_45038038/article/details/135091668

版权

架构设计内容分享同时被 2 个专栏收录

224 篇文章 54 订阅

订阅专栏

ElasticSearch 内容分享

25 篇文章 1 订阅

订阅专栏

首先说一下自己对ES性能的认识

首先可以说明一下自己的使用经验：ES 性能并没有想象中那么好的。

下面是一个权威数据，腾讯云的ES集群性能数据：3个节点性能测试，吞吐量中位数 50qps。

ES集群吞吐量的测试数据

所以，很多时候ES数据量大了，特别是有几亿条数据的时候，实际上性能很差。

在2017、2018年左右，维护一个30个节点的集群架构，亿级文档。数据规模大概1亿doc， 1TB的容量。

在那个集群上，有的慢搜索，最长rt在5-10s。

你可能会蒙？怎么那么久， 5~10s？

记得当时候，17年的时候，为30个节点的es集群做优化，吞吐量从 5qps 优化到 100qps，竟然，耗费了1个月

当然，最终，借用秒杀理论搞定并发场景的性能问题，实现了在瞬间高并发流量（1W用户同时访问）的情况下，用户的rt在2秒以内

特别说明，秒杀不是一般的秒杀，至少抽取了3个大型项目的工业实操。

总之，ES 性能优化，是一个很大的难题。

在解决的时候，不要期待着随手调一个参数、两个参数，就可以万能的应对所有的性能慢的场景。

解决这个问题，要系统化、体系化、全面化思考。

那么：要做到数十亿数据查询，毫秒级响应，有哪些措施呢？

措施一：调大内存，缓存越大越好

调大内存，缓存越大越好，主要指的是Filesystem Cache越大越好。

为啥要调大Filesystem Cache呢？

ES查询的时候，会有大量的mmap操作，在mmap操作的时候，OS会将磁盘文件里的segment数据，加载到 Filesystem Cache 缓存里面去。

总之，ES严重依赖于底层的 filesystem cache，你如果给 filesystem cache 更多的内存，尽量让内存可以容纳所有的 idx segment file 索引数据文件，

那么在搜索的时候，就基本都是走内存的，性能会非常高。

具体来说：性能差距究竟可以有多大？

我们之前很多的测试和压测，如果通过磁盘IO完成搜索，一般秒级返回，可能是，1秒、5秒、10秒。

但如果是走 filesystem cache，那么一般来说性能比走磁盘IO要快一个数量级，基本上就是10ms、50ms、100ms、几百毫秒不等。

这里，还可以给面试官说点真实的数据。

假设一套 es 节点有 3 台机器，每台机器，64G内存，总内存就是 64 * 3 = 192G。

每台机器给 es jvm heap 是 32G，留给 filesystem cache 是 32G，

总共集群里给 filesystem cache 的就是 32 * 3 = 96G 内存。

而此时，整个磁盘上索引数据文件，假设在 3 台机器上一共占用了 1T 的磁盘容量，es 数据量是 1T，那么每台机器的数据量是 300G。

此时：

filesystem cache 的内存才 100G，
es 数据量是 1T

十分之一的数据可以放内存，十分之9的数据，在查询命中的时候，需要进行临时的磁盘加载。

结论是：十分之9的搜索操作，性能在秒级。

提升性能的策略是，提升内存命中的比例，两个思路：

拼命调大内存。
减少索引index 索引大小。

所以：亿级索引、海量索引的调优措施之一，简单来讲，希望全部命中在内存，而不是在磁盘。

或者说：如果缓存不了全部数据，那就至少可以容纳你的总数据量的一半。

比如：索引数据控制在 100G，如果内存留给 filesystem cache 的是 100G，这样的话，数据几乎全部走内存来搜索，性能非常之高，一般可以在 1 秒以内。

问题是，增大内存是高成本的措施，很多公司，不一定舍得这份投入。

怎么办？

措施二：缩容，缩小index 索引

如果第一点做不到，怎么办呢？

没有必要在一个点死耗，条条道路同罗马，东方不亮西方亮。

增大内存搞不定的话，可以逆向思考。就是：减少索引index 索引大小。

目标就一个：还是把索引加载到内存，或者至少能加载一半。

比如有一行数据，id,name,age .... 30 个字段。而搜索的时候，只需要根据 name,age 2个字段来搜索。

这样搜索的时候，其余的28个字段是和搜索无关的，占了90%以上。结果这部分搜索无关数据，硬是占据了 es 机器上的 filesystem cache 的空间，单条数据的数据量越大，就会导致 filesystem cahce 能缓存的数据就越少。

所以，优化的策略就是，减少索引index 数据量。

仅仅写入 es 中要用来检索的少数几个字段就可以了，比如说就写入id,name,age 三个字段。

那么问题来了：在哪里存放全量数据呢？

一般是建议用 es + hbase 架构。es中保存hbase的key，根据key 去habse取全量数据。

hbase 的特点是适用于海量数据的在线存储，就是对 hbase 可以写入海量数据，但是不要做复杂的搜索。

当然，在hbase中做很简单的一些根据 rowkey或者范围进行查询的这么一个操作就可以了。

用 es + hbase 架构，从 es 中根据 name 和 age 去搜索，拿到的结果可能就 20 个 rowkey，然后根据rowkey（doc id）到 hbase 里去查询每个 doc id 对应的完整的数据，给查出来，再返回给前端。

关于完整 es + hbase 架构, 非常重要，也非常精彩，是一个大大的简历亮点，关于这个实操，后面会进行详细介绍，具体请关注群消息。

优化的结果：

然后你从 es 检索可能就花费 100ms，然后再根据 es 返回的 id 去 hbase 里查询，查 20 条数据，可能也就耗费个 100ms，

架构整改之前，1T 数据都放 es，会每次查询都是 5~10s
架构整改之后，现在可能性能就会很高，每次查询就是 200ms。

结论：性能提升50倍多。

措施三：冷热分离

如果索引的数据量，还是减不下来，怎么办。

比如说，无论怎么进行索引的瘦身，无论怎么进行索引的缩容，索引还是远大于内存。

比如，索引瘦身之后，还是有300G，而 filesystem cache 只有100G，索引大小，远远大于内存大小，怎么办？

条条道路同罗马，东方不亮西方，办法总比问题多。

方法之一：冷热分离

方式之2：数据预热

方式之3：.....

怎么做冷热分离呢？

冷数据：将大量的访问很少、频率很低的数据，单独写一个索引，
热数据：将大量的访问很大、频率很高的数据，单独写一个索引，

目标还是一个：搜索的时候进行内存IO，而不是磁盘IO。

这样可以确保热数据在被加载到filesystem os cache 之后.

怎么能保证冷索引，不把热索引从内存寄出去呢？

这个主要是 Linux 内核的 LRU内存淘汰算法导致的，当系统内存不足时，Memcached 和 Redis 都是使用 LRU算法来淘汰内存的。

提示，这里很容易出现连环炮面试题：内存淘汰算法相关的试题。

LRU（Least Recently Used）中文翻译是最近最少使用的意思，其原理就是：当内存不足时，淘汰系统中最少使用的内存，这样对系统性能的损耗是最小的。用过 Memcached 或者 Redis 的同学应该都了解过 LRU算法。

一般来说，由于热数据频繁访问，一般就会比较高的概率留在 filesystem os cache 里，不会让冷数据给冲刷掉。

假设有 6 台机器，2 个索引，一个放冷数据，一个放热数据，每个索引 3 个 shard。

大量的时间是在访问热数据 index，热数据可能就占总数据量的 10%，此时数据量很少，几乎全都驻留 filesystem cache 里面了，就可以通过内存IO完成，而不是磁盘IO，从而实现性能优化。

少量的冷数据访问，可能大量数据是在磁盘上的，此时性能差点，也无所谓了。

冷热分离之后，保障了90%的请求在1s以内。

措施四：数据预热

冷热分离之后，如何确保热数据，一直处于 filesystem cache 里？

有效的措施是：数据预热

怎么预热呢？

简单的说，就是提前访问一下，让数据进入 filesystem cache 里面去。

复杂点的措施，就是做一个专门的缓存预热子系统，就是对热数据每隔一段时间，访问一下，让数据进入 filesystem cache 里面去。

那么，那些是热点数据呢？怎识别热点数据呢？

比如电商秒杀，你可以将平时查看最多的一些商品，比如说 iphone 8，可以提前访问一次，刷到 filesystem cache 里去。搜索的时候，直接从内存里搜索了，没有走磁盘IO，速度很快。

有些热点数据是可以提前预知的，但是更多的热点数据，不实时产生的的，老天爷都不知道什么时候到了，怎么办？

这里涉及到热点探测系统。

有了，缓存预热子系统可以和热点探测子系统结合，进行动态的缓存预热。

提前预热之后，数据已经到了缓存，这样下次别人访问的时候，性能一定会好很多。

举个例子，拿微博来说，一些大V数据，或者一下其他的平时看的人很多的数据，就是使用热点探测子系统和缓存预热子系统结合的路子，每隔一会儿，探测到热点数据之后，预热子系统就去搜索一下热数据，刷到 filesystem cache 里去。

后面用户去搜索大V，实际他们就是直接从内存里搜索了，没有走磁盘IO，速度很快。

比如电商秒杀，对于一下未知的热点商品，通过热点探测之后，存预热子系统可以主动访问一次，刷到 filesystem cache 里去。

措施五：索引模型优化

在ES的优化中，索引模型优化、或者说索引结构优化，也很重要。

es 能支持的操作就那么多，很多操作性能低，不要在搜索的时候，执行各种复杂的乱七八糟的操作。

换句话说，对索引进行优化的时候，直接索引最终的结果数据，而不是过程数据、中间数据。

最好是先在 Java 系统里就完成数据的处理，比如说数据的关联，将关联好的数据直接写入 es 中。

搜索的时候，就不需要利用 es 的搜索语法来完成 join 之类的关联搜索了。

对于一些太复杂的操作，比如 join/nested/parent-child 搜索都要尽量避免，性能都很差的。

如果真的有那种操作，尽量在 document 模型设计的时候，写入的时候就完成。

另外对于一些太复杂的操作，比如 join/nested/parent-child 搜索都要尽量避免，性能都很差的。

关于索引结构的优化，有非常多的优化手段，根据自己的场景去定制化使用：

字段拉平：将复合字段拆分为多个不同字段，查询时减少查询的字段个数。
提前建立 mapping：预先建立 mapping，而不是让 ES 自动生成数据类型，加速检索。
使用 keyword 代替 int/long/numeric,

为啥使用 keyword 代替 int/long/numeric？

对于keyword类型的term query，ES使用的是倒排索引。但是numeric类型为了能有效的支持范围查询，它的存储结构并不是倒排索引。

倒排索引在内存里维护了词典 (Term Dictionary)和文档列表(Postings List)的映射关系，倒排索引本身对于精确匹配查询是非常快的，直接从字典表找到term，然后就直接找到了posting list。

措施六：查询优化

查询优化的措施太多，随便说几点，面试官基本就满意了：

分页性能优化
能用term就不用match_phrase
使用过滤器优化查询

然后告诉面试官，这些都要根据业务场景，具体分析。

查询优化1：分页性能优化

es 的分页是较坑的，为啥呢？

举个例子吧，假如每页是 100 条数据，现在要查询第 10页, 分页的时候，总共需要查到 1000条，再截取一个page

如果有个 3 个 shard，实际上是会把每个 shard 上存储的前 1000 条数据，都查到一个协调节点上，

那么协调节点就有3000 条数据，接着协调节点对这 3000 条数据进行一些合并、处理，再获取到最终第 10 页的 10 条数据。

ES必须得从每个 shard 都查 1000 条数据过来，然后根据你的需求进行排序、筛选等等操作，最后再次分页，拿到里面第 10 页的数据。

翻页的时候，翻的越深,比如 1000，每个 shard 返回的数据就越多，而且协调节点处理的时间越长。

用 es 作分页，前几页就几十毫秒，翻到 10 页或者几十页的时候，基本上就要 5~10 秒才能查出来一页数据了。

那么怎么做分页性能优化？

简单的措施：就是限制翻页的数量，不让翻到很大的page。

为啥可以这么处理呢？实际上，搜索引擎返回的结果，都是模糊匹配的，越到后面，结果越模糊，对用户的价值不大。

一般情况下，追求前几页，提供给用户价值大的结果。

很多搜索系统，不提供大页码的翻页。

查询优化2：能用term就不用match_phrase

The Lucene nightly benchmarks show that a simple term query is about 10 times as fast as a phrase query, and about 20 times as fast as a proximity query (a phrase query with slop).

官方说：

term查询比match_phrase性能要快10倍，
term查比带slop的match_phrase(proximity——match)快20倍。

能用term就不用match_phrase，举个简单例子

GET /my_index/my_type/_search
{
    "query": {
        "match_phrase": {
            "title": "quick fox"
        }
    }
}

变为

GET /my_index/my_type/_search
{
    "query": {
        "term": {
            "title": "quick fox"
        }
    }

match_phrase的执行流程如下？

match_phrase查询首先解析查询字符串，产生一个词条列表。

然后会搜索所有的词条，但只保留包含了所有搜索词条的文档，并且词条的位置要邻接。

比如，搜索 quick fox时，如果没有文档含有邻接在一起的quick和fox词条, 一个针对短语quick fox的查询不会匹配我们的任何文档。

proximity match: slop参数告诉match_phrase查询词条能够相隔多远时仍然将文档视为匹配。

我们以一个简单的例子来阐述这个概念。

为了让查询quick fox能够匹配含有quick brown fox的文档，我们需要slop的值为1.

match和match_phrase的区别

match:

只要简单的匹配到了一个term，就会将term对应的文档作为结果返回，扫描倒排索引，扫描到了就完事

match_phrase:

首先要扫描到所有term的文档列表，找到包含所有term的文档列表，然后对每个文档都计算每个term的position，是否符合指定的范围，需要进行复杂的运算，才能判断能否通过slop移动，匹配到这个文档。

match和match_phrase的性能比较

match 的性能比match_phrase和proximity match（有slop的match_phrase）要高得多。

因为后两者都需要计算position的距离

match query比natch_phrase的性能要高10倍，比proximity match（有slop的match phrase）要高20倍。

但是Elasticsearch性能是很强大的，基本都在毫秒级。

match可能是几毫秒，match phrase和proximity match也基本在几十毫秒和几百毫秒之前。

那么，如何对match和match_phrase的性能优化？

具体的措施是：先缩小范围，再打分。

具体来说，优化match_phrase和proximity match的性能，一般就是减少要进行proximity match搜索的文档的数量。

主要的思路就是用match query先过滤出需要的数据，然后在用proximity match来根据term距离提高文档的分数，同时proximity match只针对每个shard的分数排名前n个文档起作用，来重新调整它们的分数，这个过程称之为重打分rescoring。

主要是因为一般用户只会分页查询，只会看前几页的数据，所以不需要对所有的结果进行proximity match操作。也就是使用match + proximity match同时实现召回率和精准度。

默认情况下，match也许匹配了1000个文档，proximity match需要对每个doc进行一遍运算，判断能否slop移动匹配上，然后去贡献自己的分数。

但是很多情况下，match出来也许是1000个文档，其实用户大部分情况下都是分页查询的，可以就看前5页，每页就10条数据，也就50个文档。

所以，proximity match只要对前50个doc进行slop移动去匹配，去贡献自己的分数即可，不需要对全部1000个doc都去进行计算和贡献分数。

这个时候通过window_size这个参数即可实现限制重打分rescoring的文档数量。示例：

GET /test_index/_search
{
  "query": {
    "match": {
      "test_field": "java spark"
    }
  },
  "rescore": {
    "query": {
      "rescore_query": {
        "match_phrase": {
          "test_field": {
            "query": "java spark",
            "slop": 10
          }
        }
      }
    },
    "window_size": 50
  }
}

查询优化3：使用过滤器优化查询

elasticsearch提供了一种特殊的缓存，即过滤器缓存（filter cache），用来储存过滤器的结果.

被缓存的过滤器不需要消耗过多的内存，因为他们只储存了哪些文档能与过滤器相匹配的相关信息，而且可供后续所有与之相关的查询重复使用，从而极大的提高了查询性能

执行下面这个查询：

{
    "query":{
        "bool":{
            "must":[
            {
                "term":{"name":"joe"}    
            },
            {
                "term":{"year":1981}
            }
            ]
        }
    }
}

该查询能查询出满足指定姓名和出生年代条件的足球运动员，只有同时满足两个条件的查询才可以被缓存起来。

优化这个查询：

人名有太多可能性，它不是完美的缓存候选对象，而年代是，我们使用另一种查询方法，该查询组合了查询类型与过滤器：

{
    "query":{
        "filtered":{
            "query":{
                "term"：{"name":"joe"}
            },
            "filter":{
                "term":{"year":1981}
            }
        }
    }
}

第一次执行该查询以后，过滤器会被es缓存起来，如果后续的其他查询也要使用该过滤器，则她会被重复使用，避免es重复加载相关数据

之乎者也·

关注

19
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
0
评论
架构设计内容分享(二十四)：10亿级ES海量搜索狂飙10倍，该怎么办？

这样搜索的时候，其余的28个字段是和搜索无关的，占了90%以上。举个例子，拿微博来说，一些大V数据，或者一下其他的平时看的人很多的数据，就是使用热点探测子系统和缓存预热子系统结合的路子，每隔一会儿，探测到热点数据之后，预热子系统就去搜索一下热数据，刷到 filesystem cache 里去。首先要扫描到所有term的文档列表，找到包含所有term的文档列表，然后对每个文档都计算每个term的position，是否符合指定的范围，需要进行复杂的运算，才能判断能否通过slop移动，匹配到这个文档。
复制链接

扫一扫