信息检索模型
布尔模型
优点
缺点
向量空间模型
模型描述
索引项
出现次数
TF-IDF
概率模型
二值独立模型(BIM)
- 二值(等价于布尔值):文档和查询都表示为此项出现与否的不二向量
- 词项在文档中的出现是相互独立的
利用概率模型来估计每篇文档和查询之间的相关性概率,然后对结果进行降序排列
排序函数
词项的独立性
推导简化
u
t
u_t
ut的估计
p
t
p_t
pt的估计
向量空间模型与概率模型的差别
Okapi BM25:非二值的概率模型
语言模型
语言模型在信息检索中的应用
最大似然估计的问题
语言模型与向量空间模型