小红书搜索引擎介绍

本文介绍了小红书搜索引擎的工作原理,涉及查询词处理、召回和排序三个关键环节。查询词处理利用NLP技术进行分词和理解;召回通过文本召回和向量召回策略;排序则综合考虑相关性、内容质量、时效性和个性化等因素。搜索引擎应用了机器学习和自然语言处理技术,实现高效精准的搜索体验。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

小红书是一个分享生活的社区,几亿中国人的生活经验,都在小红书。小红书的搜索引擎每天服务数千万用户,做几亿次检索。王树森博士以小红书的社区搜索为例,讲解搜索引擎的入门知识,包括搜索引擎的三个主要环节——查询词处理(QP)、召回(Retrieval)、排序(Ranking)——以及它们背后的机器学习、自然语言处理技术。本次分享的目的是让大家对现代先进的搜索引擎技术有初步认知,并了解大规模神经网络如何在搜索场景中落地。

搜索引擎三个主要环节——查询词处理(QP)、召回(Retrieval)、排序(Ranking)

1、查询词处理

也就是利用NLP技术和规则对query做分词和理解

主要流程包括query分词、拼写纠错、同义词改写、词权重和核心词识别、类目识别和意图识别

2、召回

也就是快速取回与query相关的笔记

包括主通道的文本召回(倒排索引+召回规则)和旁路通道的向量召回(双塔模型)

(1)文本召回:与query中的文字做匹配,主要用到的就是倒排索引和一些抛词规则和扩召回等,只考虑语义信息,不考虑个性化

倒排也就是关键词到笔记ID,给一个词,就能把含有这个词的笔记找到,常见的是elasticsearch建索引做召回

抛词规则:例如query切分为多个token,为了召回相关足够多的笔

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值