了解网络爬虫

爬虫的定义
网络爬虫是一种按照一定的规则自动地抓取网络信息的程序或者脚本。简单的说,网络爬虫就是根据一定的算法实现编程开发,主要通过URL实现数据的抓取和发掘。
传统的爬虫有百度、Google、必应等搜索引擎,这类通用的搜索引擎都有自己的核心算法。同时这类通用搜索引擎也有一定的局限性:

  1. 不同的搜索引擎对于同一个搜索会有不同的结果,搜索出来的结果未必是用户需要的信息。
  2. 通用的搜索引擎扩大了网络覆盖率,但是有限的搜索引擎服务器资源与无限的网络资源之间的矛盾将进一步加深。
  3. 随着网络数据形式的增多,不同的数据大量出现,通用的搜索引擎对那些信息含量密集且具有一定结构的数据无能为力,不能很好的发现和获取。

因此,为了得到准确的数据,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,根据设定的抓取目标有目的的访问互联网上的网页与相关的URL,从而获取所需要的信息。
爬虫的分类
网络爬虫根据系统结构和开发技术大致可以分为4种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫

一、通用爬虫又称全网爬虫,常见的有百度、Google、必应等搜索引擎,爬行对象从一些初始URL扩充到整个网站,主要为门户站点搜索引擎和大型网站服务采集数据,具有以下特点:
1. 由于商业原因搜索引擎的算法是不会对外公布的。
2. 这类爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,爬行页面的顺序要求相对较低。
3. 采用并行工作方式,由于待刷新的页面太多,需要较长的时间才能刷新一次页面。
4. 存在缺陷,适用于搜索引擎搜索广泛的需求。

二、聚焦爬虫又称主题网络爬虫,是选择性的爬行根据需要的主题相关的页面的网络爬虫。

三、增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生或者已经发生变化的网页的爬虫,可以尽可能的保证所爬行的网面是新的页面。只会在需要的时候爬行新产生或者发生更新的页面,并不重新下载没有发生变化的页面,可以有效减少数据下载量,及时更新已爬行的网页,减少时间和空间的消耗,但是也会增加爬行算法的复杂度和实现难度,基本上这类爬虫在实际开发中不是很普及。

四、深层网络爬虫是大部分内容不能通过静态URL获取的,隐藏在搜索表单后的、只有用户提交一些关键字才能获得的网络网页。

综述
这四类爬虫大致可分为两类,就是通用网络爬虫和聚焦网络爬虫,其中聚焦网络爬虫、增量式网络爬虫和深层网络爬虫可通俗的称为一类,因为它们都为定向爬取数据,比较有目的性,也就是网上经常说的网络爬虫,而通用网络爬虫在网络上通常称为搜索引擎。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值