网络爬虫-理解

网络爬虫讲解地址:http://blog.csdn.net/luojinping/article/details/6870898

 

  对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右

1.抓取技术的瓶颈:无法遍历所有的网页,有许多网页无法从其它网页的链接中找到

2.存储技术和处理技术的问题(容量和带宽)

3.效率。

 

  网络爬虫只要策略

广度优先(层级抓取)
深度优先(单个抓取)

 

 

 

  网络爬虫可能会遇到的问题

1.访问权限
2.扒与被扒的数据服务器负担
3.遵循robots.txt协议
4.内容帅选,跟踪(无意义的页面,图片,文件,广告,多媒体,公共频道等)
5.动态页面
6.更新周期
7.循环抓取,访问遗漏

 

 

 

  主要架构

一个典型的网络蜘蛛工作的方式:查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推。

网络蜘蛛在搜索引擎整体结构中的位置如下图所示: 初始化时,网络蜘蛛一般指向一个URL ( Uniform ResourceLocator)池。在遍历Internet的过程中,按照深度优先或广度优先或其他启发式算法从URL池中取出若干URL进行处理,同时将未访问的 URL放入URL池中,这样处理直到URL池空为止。对Web文档的索引则根据文档的标题、首段落甚至整个页面内容进行,这取决于搜索服务的数据收集策略。

 

转载于:https://www.cnblogs.com/hwaggLee/p/4920911.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值