搜索与排名

一、搜索
1、爬虫
一般爬虫将网络视为一张图,对于图而言,常见的算法有两种:深度优先和广度优先
2、分词与索引
爬虫获取的一般都是文档,我们需要进行分词处理,处理之后,搜索引擎要完成从单词到文档的映射,一般采取倒排索引的方法。
二、排名
在获得了与查询条件相匹配的网页之后,排名是不可缺少的。
1、基于内容的排名
单词频度:一般而言,目标单词在文档中出现的次数越多,则相关性越高。
文档位置:文档的主题有可能会出现在靠近文档的开始处。
单词距离:如果查询中有多个单词,则它们在文档中出现的位置应该靠得更近。
2、基于链接
简单计数:统计每个网页上链接的数目,并将链接总数作为针对网页的度量。
PageRank:上一种方法中我们看到对于每一个链接,我们给予了相同的权重。在PageRank中,为每一个网页都赋予了一个指示网页重要程度的评价值。网页的重要程度是依据指向该网页的所有其他网页的重要性,以及这些网页中所包含的链接数求得的。
利用链接文本:这个方法是根据指向某一网页的链接文本来决定网页的相关程度。大多数时候,相比于被链接的网页自身所提供的信息而言,我们从指向该网页的链接中所得到信息会更有价值。
3、从点击行为中学习
构件一个人工神经网络,向其提供:查询条件中的单词,返回给用户的搜索结果,以及用户的点击决策,然后再对其加以训练。一旦网络经过了许多不同查询的训练之后,我们就可以利用它来改进搜索结果的排序,以更好的反映用户在过去一段时间里的实际点击情况。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值