在网络中有各种各样的讯息,搜索引擎可以精准、快速、高效的帮我们获取自己想要的信息。其中 召回和 排序是搜索引擎中最重要的两部分。
Q:Query 输入的查询语句
q:查询语句的词
D:Document 文本库中的所有文本
d:文本库中的某一篇文本
G:Goods商品库中的所有商品
g:商品库中的某一商品
-
召回
根据用户输入的Query语句进行分词,通过倒排索引的方式从已有的候选库中召回相关的网页或商品。 -
排序
- 离线部分:通常会先根据业务要求如:网页的质量、浏览时长、销量、加购次数等因素对所有网页或商品进行打分获得基础分 base_score
- 在线部分:使用VSM、BIM、BM25、BM25F等模型获取搜索词和已召回的网页或商品的相关度 Correlation,最后综合基础分和相关度进行排序并返回最相关的TopK
BIM模型(二元独立模型)
BM25是基于概率检索模型BIM的改进,或者说BIM(简化后的BIM)是BM25模型的一个项,而BM25F又是基于BM25模型的改进。所以在学习BM25模型之前我们先来了解一下BIM模型。
BIM模型介绍
BIM模型有两个假设:二元假设和词汇独立性假设