《集体智慧编程》第4章 搜索与排名 个人笔记

第4章 搜索与排名

1、基于内容的排名

  • 单词频度:位于查询条件中的单词在文档中出现的次数能有助于我们判断文档的相关程度。
  • 文档位置:文档的主题有可能会出现在靠近文档的开始处。搜索引擎可以对待查单词在文档中出现越早的情况给予越高的评价。
  • 单词距离:如果查询条件中更有多个单词,则它们在文档中出现的位置应该考得很近。
  • 归一化函数:有的评价方法数值越大越好,而有的则分值越小越好。为了对不同方法的返回结果进行比较,我们需要一种对及结果进行归一化处理的方法。即,令它们具有相同的值域及变化方向。

2、利用外部回指链接

1)简单计数

在每个网页上统计链接的数目,并将链接总数作为针对网页的度量。
为了得到与待查单词更相关的内容,必须结合使用外部回指链接和基于内容的度量方法。

2)PageRank算法

pr
网页B、C、D均指向A,它们的PageRank值已有。B指向A和其他3个网页,C指向A和其他4个网页,D只指向A。则有,

R(A)=0.15+0.85[PR(B)/links(B)+PR(C)/links(C)+PR(D)/links(D))]=0.15+0.85(0.5/4+0.7/5+0.2/1)=0.54525

PageRank值初始化
为所有的PAgeRank都设置一个任意的初始值,然后反复计算,迭代若干次。在每次迭代期间,每个网页的PageRank值将会越来越接近其真实值,迭代次数视网页数量而定。

3、从点击行为中学习

构造人工神经网络来改进搜索引擎,具体的原理会在“深度学习”那块会写,这里先略过。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值