【Boost】:搜索结果重复问题(七)

文章讨论了在搜索引擎中,由于关键词分词导致的文档重复问题,提出通过使用hash对倒排索引进行过滤,避免权重累加并保留唯一文档的方法。同时提及了增加测试用例和重新使用解析器获取新数据的重要性。
摘要由CSDN通过智能技术生成

搜索结果重复问题

记得我们是如何进行查找的吗?首先把用户输入的关键词进行分词,然后再用每一个词去倒排索引进行匹配,把所有的倒排索引都找出来,然后根据权重进行降序排列,最后依次根据倒排索引里存的id,通过正排索引找到对应文档;把找到的所有文档变成一个json串,这样就算完成了一次查找。

但问题是对用户关键词进行分词后,可能分词1里包含文档1,分词2里也有文档1,这样当我们将所有文档变成json串时,就会有两个文档1,很明显是造成了浪费的,我们需要把所有权重加起来,但只保留一份。

在data目录下增加一个测试用例

在这里插入图片描述

<html>
  <head>
    <title>用来测试</title>
    <meta http-equiv="refresh" content="0;URL=../../libs/core/doc/html/core/ref.html">
  </head>
  <body>
    你是一个好人
    <a href=" ../../libs/core/doc/html/core/ref.html">../../libs/core/doc/html/core/ref.html</a>
  </body>
</html>

注意:重新使用parser,获取新的数据。

在这里插入图片描述

解决方法

解决方案多种多样,这里我选择的是用一个hash进行过滤。创建一个hash,将所有得到的倒排索引都与该hash进行匹配,如果之前已经存在就将它们的权重相加,如果没有就放入。最后再将hash里的索引放入inverted_list_all里。

在这里插入图片描述

在这里插入图片描述

  • 9
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

咸蛋挞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值