搜索引擎核心技术入门

本文概述了搜索引擎的核心技术,包括网络爬虫的高效策略,倒排索引的构建,以及布尔、向量空间和概率检索模型。此外,还提及了链接分析中的PageRank算法和网页反作弊技术的重要性。
摘要由CSDN通过智能技术生成

今天刚把《这就是搜索引擎.技术核心详解》一书看完,趁着还有点印象,做一个简单的综述。

先从一个宏观的角度来认识一下搜索引擎的架构是怎样的。

简单来讲,可以将搜索引擎的工作流程分为两部分,一个用户主导的前端级,另外一个是服务器主导的后台级。前端级主要负责发送查询需求并分析,接受搜索结果并排序的功能的这两个功能。当然这只是广义的用户级,因为这只是针对于大型的存储与计算平台来讲的,在图中体现为index files。后台则是主要囊括信息的搜集以及信息的处理,当然在实现这两个简单的功能的时候,涉及众多的技术,比如网络爬虫,网页去重,反作弊,链接分析等


网络爬虫

网络爬虫很好理解,就像它的名称一样,作为一个程序,它一直在按着某种规则在互联网中扒取网页,而最终扒取下来的网页信息就会使用到建立索引中。


当然作为一个搜索引擎的网络引擎,他的网络爬虫性能必须非常优秀。如果网络爬虫扒取的网页质量很差,速度很慢的话,将会直接影响建立起来索引的质量,最终导致用户体现差等悲观结局。而网络爬虫为体现其高性能,必须在扒取策略上设计得很高效,为此爬虫在遍历网页的时候,有宽度优先遍历策略,非完全PageRank策略,OPIC策略,大站优先策略等。另外由于爬虫扒取的网页是静态的,但是实际上网页是在动态更新的,为达到动态更新的目的,搜索引擎需

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值