大数据最全【elasticsearch实战】从零开始设计全站搜索引擎(6)，2024年最新真的醉了

本文链接：https://blog.csdn.net/m0_74932057/article/details/138906700

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

搜索服务：基础的关键词检索能力、权限控制、热词/联想词、搜索结果混排、查询第三方数据
数据转换服务：读取kafka的binlog转换成满足es索引结构的json对象，再写入kafka，通过logstash写入es中。

详细设计

该服务包括：搜索门户api、权限控制、搜索能力、搜索混排、搜索热词、联想关键词。

搜索混排

由于自主维护的数据和第三方数据源数据都存储在es中，因此可以直接使用评分进行合并，如下图所示。
在这里插入图片描述

注意：

可以配置不同数据源的评分权重（或者评分算法）以便优先要展示的结果；
需要记录不同数据源的偏移量和不同数据的查询结果，以便实现下次查询分页处理；
查询ES和查询私有云数据使用协程并行操作，等待2个结果共同返回处理。

另外你的第三方数据源没有存储在es数据库中，不能直接给出文档评分的，可以考虑以下混排方案：

方案	原理	优点	缺点
`es`临时建索引做混排	将来自不同数据源的数据在`Elasticsearch`中创建一个临时索引，然后在该索引上进行搜索和排序。	1. 利用`Elasticsearch`强大的搜索功能。2. 支持复杂的查询和排序。	1. 需要创建临时索引，可能影响性能。2. 需要处理索引的创建和删除。3. 可能需要处理数据源之间的数据差异。
`Lucene`内存混排	将来自不同数据源的数据加载到`Lucene`内存索引中，然后在内存索引上进行搜索和排序。	1. 高性能，因为数据存储在内存中。2. 支持复杂的查询和排序。	1. 内存占用较高。2. 需要处理`Lucene`内存索引的创建和维护。3. 可能需要处理数据源之间的数据差异。
分词词频内存混排	根据分词和词频对来自不同数据源的数据进行内存中的排序，然后返回排序后的结果。	1. 实现相对简单。2. 内存占用相对较低。	1. 只支持基于分词和词频的排序。2. 对于复杂的查询和排序需求，可能不够灵活。3. 可能需要处理数据源之间的数据差异。

翻页方案

由于要对2个数据源进行混排，要支持搜索跳页比较困难，因此在功能实现上目前只能支持上下翻页来实现

翻页计算公式

前端需要保存每一页es 和 api 两个数据源的偏移量：EsOffset 和 ApiOffset，可以使用对象数组保存pageArrays[0] = {EsOffset: 0, ApiOffset: 0 } , 翻页计算公式如下：

当前页码计算公式：PageNo =（EsOffset+ApiOffset） /PageSize
上一页：将当前页码减1 ：pageArrays[（EsOffset+ApiOffset）/ PageSize - 1 ] ，获取上一页页面缓存的上一页 EsOffset 和 ApiOffset
下一页： EsOffset = EsOffset + EsUsedItemCount， ApiOffset = ApiOffset + ApiUsedItemCount，获取下一页的EsOffset 和 ApiOffset

注意：查询到第一页时，可清空页面分页缓存数组对象，重新存储。

翻页举例说明

查询首页，假设没页显示20条数据
- 请求参数：EsOffset = 0，ApiOffset=0， PageSize=20
- 返回结果：EsOffset = 0，ApiOffset=0，EsUsedItemCount=7，ApiUsedItemCount=13， EsHasNextPage=true，ApiHasNextPage=true

前端需要需要页面需要保存当前第一页页面的 EsOffset=0 和 ApiOffset=0，PageNo = (0 + 0) / 20 = 0 ，页面缓存数据： pageArrays=[{EsOffset: 0, ApiOffset: 0 }]

继续查询下一页
- 请求参数：EsOffset = EsOffset + EsUsedItemCount=> 0 + 7 = 7，ApiOffset=ApiOffset+ApiUsedItemCount = 0 + 13 = 13， PageSize=20
- 返回结果：EsOffset = 7，ApiOffset=13， EsUsedItemCount = 12，ApiUsedItemCount = 8， EsHasNextPage=true，ApiHasNextPage=true
- 前端继续缓存当前分页数据：EsOffset=7 和 ApiOffset=13，PageNo = (7 + 13) / 20 = 1， pageArrays=[{EsOffset: 0, ApiOffset: 0 }，{EsOffset: 7, ApiOffset: 13}]
查询上一页

请求参数：当前页码减1 （EsOffset+ApiOffset）/ PageSize - 1 => (7 + 13)/20 - 1 = 0 EsOffset = pageArrays[0].EsOffset = 0，ApiOffset=pageArrays[0].ApiOffset = 0, PageSize = 20
返回结果：与第一页一致
如果是查询第一数据，清空缓存数组，重新缓存当前分页数据。

权限处理

搜索权限需要满足根据用户权限过滤部分无权限的文档，以下是召回前处理和召回后处理权限的方案对比。

方案	实现	优点	缺点
召回前过滤	在查询时，根据用户的权限对文档进行过滤，只返回有权限查看的文档。	1. 查询结果直接满足权限要求。2. 减少了无关文档的返回，提高了性能。	1. 需要在查询时处理权限信息。2. 对于复杂的权限体系，实现可能较为复杂。
召回后过滤	先查询所有文档，然后根据用户的权限对查询结果进行过滤。	1. 查询过程简单，不需要处理权限信息。2. 适用于简单的权限体系。	1. 可能返回大量无关文档，影响性能。2. 需要在查询后处理权限信息，增加了实现复杂度。

根据我的需求和场景，对性能要求较高，我们使用召回前过滤。如果希望简化查询过程，页可以考虑使用召回后过滤。
下面是在文档的权限格式，包含文档有权限的用户ID和部门ID

"privilege": {
     "data": [
         {
             "type": "staff",
             "id": "xxxx"
         },
         {
             "type": "department",
             "id": 1
         }
     ]
 }

我们在设计索引mapping时

{
  "mappings": {
    "properties": {
      "privilege": {
        "properties": {
          "data": {
            "type": "nested",
            "properties": {
              "type": {
                "type": "keyword"
              },
              "id": {
                "type": "keyword"
              }
            }
          }
        }
      }
    }
  }
}

查询权限过滤参数：

GET /your_index/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match\_all": {}
        }
      ],
      "filter": [
        {
          "nested": {
            "path": "privilege.data",
            "query": {
              "bool": {
                "must": [
                  {
                    "term": {
                      "privilege.data.type": "staff"
                    }
                  },
                  {
                    "term": {
                      "privilege.data.id": "xxxx"
                    }
                  }
                ]
              }
            }
          }
        },
        {
          "nested": {
            "path": "privilege.data",
            "query": {
              "bool": {
                "must": [
                  {
                    "term": {
                      "privilege.data.type": "department"
                    }
                  },
                  {
                    "term": {
                      "privilege.data.id": "1"
                    }
                  }
                ]
              }
            }
          }
        }
      ]
    }
  }
}

搜索行为日志收集

需要满足用户搜索历史记录，首先需要收集用户搜索行为日志。

#mermaid-svg-RGDIHV3yG6IIeTHR {font-family:“trebuchet ms”,verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-RGDIHV3yG6IIeTHR .error-icon{fill:#552222;}#mermaid-svg-RGDIHV3yG6IIeTHR .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-RGDIHV3yG6IIeTHR .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-RGDIHV3yG6IIeTHR .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-RGDIHV3yG6IIeTHR .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-RGDIHV3yG6IIeTHR .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-RGDIHV3yG6IIeTHR .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-RGDIHV3yG6IIeTHR .marker{fill:#333333;stroke:#333333;}#mermaid-svg-RGDIHV3yG6IIeTHR .marker.cross{stroke:#333333;}#mermaid-svg-RGDIHV3yG6IIeTHR svg{font-family:“trebuchet ms”,verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-RGDIHV3yG6IIeTHR .label{font-family:“trebuchet ms”,verdana,arial,sans-serif;color:#333;}#mermaid-svg-RGDIHV3yG6IIeTHR .cluster-label text{fill:#333;}#mermaid-svg-RGDIHV3yG6IIeTHR .cluster-label span{color:#333;}#mermaid-svg-RGDIHV3yG6IIeTHR .label text,#mermaid-svg-RGDIHV3yG6IIeTHR span{fill:#333;color:#333;}#mermaid-svg-RGDIHV3yG6IIeTHR .node rect,#mermaid-svg-RGDIHV3yG6IIeTHR .node circle,#mermaid-svg-RGDIHV3yG6IIeTHR .node ellipse,#mermaid-svg-RGDIHV3yG6IIeTHR .node polygon,#mermaid-svg-RGDIHV3yG6IIeTHR .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-RGDIHV3yG6IIeTHR .node .label{text-align:center;}#mermaid-svg-RGDIHV3yG6IIeTHR .node.clickable{cursor:pointer;}#mermaid-svg-RGDIHV3yG6IIeTHR .arrowheadPath{fill:#333333;}#mermaid-svg-RGDIHV3yG6IIeTHR .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-RGDIHV3yG6IIeTHR .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-RGDIHV3yG6IIeTHR .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-RGDIHV3yG6IIeTHR .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-RGDIHV3yG6IIeTHR .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-RGDIHV3yG6IIeTHR .cluster text{fill:#333;}#mermaid-svg-RGDIHV3yG6IIeTHR .cluster span{color:#333;}#mermaid-svg-RGDIHV3yG6IIeTHR div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:“trebuchet ms”,verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-RGDIHV3yG6IIeTHR :root{–mermaid-font-family:“trebuchet ms”,verdana,arial,sans-serif;}

输入关键词

写入日志

用户

服务端

Mysql

通过收集用户搜索关键词存储在MySQL，每日定时任务统计热词和联想词来实现热门搜索榜和搜索联想词。

搜索热词设计

通过收集用户搜索词来统计热搜词，其中热搜词的热度通过统计搜词词频来统计，统计包括热度周期，T+n 天的搜词次数排序，可以设计一个热度公式。

初始热度权重： w （默认1）
单位时间词频： c ：(时间单位可以是分钟、小时、天等，例如：以天为单位统计）
统计时间段数：T：（例如：连续统计30天关键词搜索频次）
单位时间热度： w / T（每个单位时间热度权重）
距离当前时间单位： n （例如计算最近30天，昨天的单位为：0）
一个词热度计算公式：
hot = [（T - 0）* c0 + (T - 1) * c1 + （T-2) * c2 + … + (T-n) * cn] * （w / T）
我们以按天统计，统计30天为例，每天的访问词频从近到远为： c0, c1, c2, … cn ( n 从0到29)，热度默认权重：1，时间段 T = 30（最近30天）
hot = [(30 - 0) * c0 + (30 -1) * c1 + (30-2)*c2 + … + (30 - 29) * c29] * 1 / 30
=> (30 * c0 + 29 * c1 + 28 * c2 + …+ c29) / 30
化简后可以得到热度公式：

∑

(

−

)

∗

hot= \sum_{i=0}^{n=29} (T-i)*ci * w/T

hot=i=0∑n=29(T−i)∗ci∗w/T
6. 每天定时任务统计用户搜索词，使用公式根据近30天的热度值，按从大到小排序top n；
7. 将top n 结果存储到MySQL中，方便后续人工干预。

思考：同义词合并逻辑，类似词的搜索建议合并成一个词条，避免相似词太多。

搜索联想词设计

搜索联想词，使用了es的数据类型Completion，Elasticsearch 提供了一个叫做 Completion Suggester 的功能，它是一个基于前缀的自动完成建议器，可以用来实现关键词联想。当你输入一个词的前缀时，它就可以提供一些可能的完成建议。

每日统计用户近3个月搜索词，排序前top n 个词；
将top n 写入es。(n >= 1000)。

索引模版

全文搜索模版

PUT _template/template_fulltext
{
  "index\_patterns": ["fulltext-\*"],
  "settings": {
    "number\_of\_shards": 1,
    "analysis": {
      "analyzer": {
        "ik\_analyzer": {
          "type": "custom",
          "tokenizer": "ik\_max\_word"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "ik\_analyzer"
      },
      "summary": {
        "type": "text",
        "analyzer": "ik\_analyzer"
      },
      "content": {
        "type": "text",
        "analyzer": "ik\_analyzer"
      },
      "author": {
        "type": "keyword"
      },
      "document\_type": {
        "type": "keyword"
      },
      "url": {
        "type": "keyword"
      },
      "publish\_date": {
        "type": "date"
      },
      "update\_date": {
        "type": "date"
      },
      "privilege": {
        "properties": {
          "data": {
            "type": "nested",
            "properties": {
              "department": {
                "type": "keyword"
              },
              "id": {
                "type": "keyword"
              }
            }
          }
        }
      }
    }
  }
}

联想词索引

PUT _template/template_suggest
{
  "index\_patterns": ["suggest-\*"],
  "settings": {
    "number\_of\_shards": 1
  },
  "mappings": {
    "properties": {
      "suggest": {
        "type": "completion"
      }
    }
  }
}