听课笔记
第一节课:
1 Similar can be measured in many ways
-String matching /comparison(字符串比较)
-Same vocabulary(词汇)used?
-Probability that documents arise from same model(目前发展到这个阶段)
-Same meaning of text
2 Bag of Words(词袋)
有效的方法
不考虑出现的顺序
3、
Best-match 得到一个匹配程度
4、 (Unranked)Boolean retrival
2、统计语言模型
要计算文档的长度
计算词语在文档中的分布。
麻烦:中文词语之间没有分割
通常查询词会代表topic
可以自己定义语言,语言的定义扩大。
还可以利用之前的相关的检索结果,改进后续的检索结果。
但是不能改进原本对文档的相关性
不能对有逻辑结构的进行检索
利用检索的结果,来对文档的相关性进行修改。
充分利用查询历史。
得到Document-likelithood(文档似然)
对query建立语言模型
对于不同长度的词不能直接比较的解决方案:
那么如何处理零频问题
解决零频方法1:但是复杂度太高,且概率分布差太多
解决零频方法2,将其他的值降低。
但是还是会影响文档长度。
零频方法三: