第4章 搜索与排名
1、基于内容的排名
- 单词频度:位于查询条件中的单词在文档中出现的次数能有助于我们判断文档的相关程度。
- 文档位置:文档的主题有可能会出现在靠近文档的开始处。搜索引擎可以对待查单词在文档中出现越早的情况给予越高的评价。
- 单词距离:如果查询条件中更有多个单词,则它们在文档中出现的位置应该考得很近。
- 归一化函数:有的评价方法数值越大越好,而有的则分值越小越好。为了对不同方法的返回结果进行比较,我们需要一种对及结果进行归一化处理的方法。即,令它们具有相同的值域及变化方向。
2、利用外部回指链接
1)简单计数
在每个网页上统计链接的数目,并将链接总数作为针对网页的度量。
为了得到与待查单词更相关的内容,必须结合使用外部回指链接和基于内容的度量方法。
2)PageRank算法
网页B、C、D均指向A,它们的PageRank值已有。B指向A和其他3个网页,C指向A和其他4个网页,D只指向A。则有,
R(A)=0.15+0.85∗[PR(B)/links(B)+PR(C)/links(C)+PR(D)/links(D))]=0.15+0.85∗(0.5/4+0.7/5+0.2/1)=0.54525
PageRank值初始化:
为所有的PAgeRank都设置一个任意的初始值,然后反复计算,迭代若干次。在每次迭代期间,每个网页的PageRank值将会越来越接近其真实值,迭代次数视网页数量而定。
3、从点击行为中学习
构造人工神经网络来改进搜索引擎,具体的原理会在“深度学习”那块会写,这里先略过。