小红书搜索引擎介绍

小红书是一个分享生活的社区,几亿中国人的生活经验,都在小红书。小红书的搜索引擎每天服务数千万用户,做几亿次检索。王树森博士以小红书的社区搜索为例,讲解搜索引擎的入门知识,包括搜索引擎的三个主要环节——查询词处理(QP)、召回(Retrieval)、排序(Ranking)——以及它们背后的机器学习、自然语言处理技术。本次分享的目的是让大家对现代先进的搜索引擎技术有初步认知,并了解大规模神经网络如何在搜索场景中落地。

搜索引擎三个主要环节——查询词处理(QP)、召回(Retrieval)、排序(Ranking)

1、查询词处理

也就是利用NLP技术和规则对query做分词和理解

主要流程包括query分词、拼写纠错、同义词改写、词权重和核心词识别、类目识别和意图识别

2、召回

也就是快速取回与query相关的笔记

包括主通道的文本召回(倒排索引+召回规则)和旁路通道的向量召回(双塔模型)

(1)文本召回:与query中的文字做匹配,主要用到的就是倒排索引和一些抛词规则和扩召回等,只考虑语义信息,不考虑个性化

倒排也就是关键词到笔记ID,给一个词,就能把含有这个词的笔记找到,常见的是elasticsearch建索引做召回

抛词规则:例如query切分为多个token,为了召回相关足够多的笔记,可以

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值