【Boost】:搜索结果重复问题（七）

最新推荐文章于 2024-06-14 13:37:46 发布

咸蛋挞

最新推荐文章于 2024-06-14 13:37:46 发布

阅读量310

点赞数 9

分类专栏： boost搜索引擎文章标签：网络 c++

本文链接：https://blog.csdn.net/m0_73790767/article/details/136410468

版权

boost搜索引擎专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章讨论了在搜索引擎中，由于关键词分词导致的文档重复问题，提出通过使用hash对倒排索引进行过滤，避免权重累加并保留唯一文档的方法。同时提及了增加测试用例和重新使用解析器获取新数据的重要性。

摘要由CSDN通过智能技术生成

搜索结果重复问题

记得我们是如何进行查找的吗？首先把用户输入的关键词进行分词，然后再用每一个词去倒排索引进行匹配，把所有的倒排索引都找出来，然后根据权重进行降序排列，最后依次根据倒排索引里存的id，通过正排索引找到对应文档；把找到的所有文档变成一个json串，这样就算完成了一次查找。

但问题是对用户关键词进行分词后，可能分词1里包含文档1，分词2里也有文档1，这样当我们将所有文档变成json串时，就会有两个文档1，很明显是造成了浪费的，我们需要把所有权重加起来，但只保留一份。

在data目录下增加一个测试用例

在这里插入图片描述

<html>
  <head>
    <title>用来测试</title>
    <meta http-equiv="refresh" content="0;URL=../../libs/core/doc/html/core/ref.html">
  </head>
  <body>
    你是一个好人
    <a href=" ../../libs/core/doc/html/core/ref.html">../../libs/core/doc/html/core/ref.html</a>
  </body>
</html>