第一章--什么是网络爬虫


随着大数据时代的到来,网络爬虫在获取我们感兴趣的信息这一方面显得越来越重要。我们感兴趣的部分可以分为两类;如果只是做搜索引擎,那么感兴趣的信息就是互联网中尽可能多的网页;如果要获取某一垂直领域的数据或者有明确的检索需求,那么感兴趣的信息就是根据我们的检索和需求所定位的这些信息。前者我们称之为通用网络爬虫,后者我们称之为聚焦爬虫。

初识网络爬虫

网络爬虫可以按照我们制定的规则自动化的浏览网页中的信息。这在进行大数据分析和数据挖掘上面具有非常重要的作用。那么为什么要学习网络爬虫呢?

  1. 可以私人订制一个搜索引擎
  2. 进行数据挖掘和大数据分析
  3. 深层次的理解搜索引擎和网络爬虫的原理
  4. 就业

网络爬虫的组成

网络爬虫由控制节点、爬虫节点组成。
控制节点:控制节点又叫做爬虫的中央控制器,主要负责URL地址分配线程,并调用爬虫节点进行爬行。控制节点可以有多个,每个控制节点控制不同的爬虫节点,控制节点之间可以相互通信,同时同一控制节点下的爬虫节点也可以相互之间通信。
爬虫节点:爬虫节点会根据相关的算法,对网页进行具体的爬行,主要包括下载网页以及对网页的文本进行处理,爬行后,会将对应的爬行结果存储到对应的资源库中。
在这里插入图片描述

网络爬虫的类型

通用网络爬虫(全网爬虫):通用网络爬虫爬取的目标资源在全互联网中,爬取的目标数据巨大,范围也是非常大的。正是因为这些特性,通用网络爬虫的爬取的性能要求是非常高的,这种网络爬虫主要用于大型搜索引擎中,有非常高的应用价值。通用网络爬虫主要由初始URL集合、URL队列、页面爬行模型、页面分析模型、页面数据库、链接过滤模块等组成。通用网络爬虫的爬行策略包括深度优先爬行策略和广度优先爬行策略。具体的策略在后面详细讲解。

聚焦网络爬虫:聚焦网络爬虫是按照预先定义好的主题有选择的进行网络爬取的一种爬虫,聚焦网络爬虫并不像通用网络爬虫一样将目标资源定位在全网络中,而是将爬取的目标网页定位在与主题相关的网页中,这样可以大大节省爬虫爬取时所需的带宽资源和服务器资源。聚焦网络爬虫主要应用在对特定的信息的爬取中,主要是为一类特定的人群服务。聚焦网络主要由初始URL集合、URL队列、页面爬行模型、页面分析模型、页面数据库、链接过滤模型、内容评价模块、链接评价模块等组成。

增量式网络爬虫:增量式网络爬虫在爬取数据的时候,只爬取内容发生变化的网页或新产生的网页,对于未发生改变的网页则不会爬取。增量式网络爬虫在一定程度上能够保持所爬取的页面,尽可能使新页面。

深层网络爬虫:可以爬取互联网的深层页面。
深层页面:网页按照存在方式分类可以分为表层页面和深层页面。表层页面指的就是不需要提交表单,使用静态的链接就能够到达的静态页面;二深层页面则隐藏在表单后面,不能通过静态链接直接获取,是需要提交一定的关键词之后才能获取的页面。深层网络爬虫最终要的就是表单填写部分。

爬虫扩展–聚焦爬虫

由于聚焦爬虫由非常好的实用性,所以在这里详细的介绍聚焦爬虫。
首先,聚焦爬虫的控制中心将初始的URL集合传递给URL队列,页面爬行模块会从URL队列中读取第一批URL列表,然后根据这些URL地址从互联网中进行相应的页面爬取。爬取后将爬取到的数据传到页面数据库进行存储,同时在爬取的过程中,会爬取到一些新的URL,此时需要根据我们我们的主题使用链接过滤模块过滤掉无关链接,再将生下来的URL链接通过主题使用链接评价模块或内容评价模块进行优先级的排序。完成后将新的URL地址传递到URL队列中,供页面爬行模块继续进行使用。另一方面将爬取并存储到页面数据库后需要根据主题使用页面分析模块对爬取到的页面进行页面分析处理,并根据处理结果建立索引数据库,用户检索对应信息的时候,可以从索引数据库中进行相应的检索,并得到相应的结果。
在这里插入图片描述

网络爬虫技能总览

搜索引擎的核心:首先搜索引擎会利用爬虫模块进行去爬取互联网中的网页,然后将爬取到的网页存储到原始数据中。然后会对原始数据库进行索引,并存储到索引数据库中。这样当用户检索信息的时候,会通过用户交互接口输入对应的信息,用户交互接口相当于搜索引擎的输入框,输入完成后,由检索器进行分词等操作,检索器会从索引数据库中获取数据进行相应的检索处理。用户输入对应信息的同时,会将用户的行为存储到用户日志数据库中,比如用户的IP地址等等。用户日志数据库会交由日志分析器进行处理。日志分析器会根据大量的用户数据去调整原始数据库和索引数据库,改变排名结果或者进行其他的处理。

索引和检索:检索是一个动词,而索引是一个属性。比如一家超市,我们会对很多商品进行分类,这些商品的类名称之为索引。而我们查找某一种商品的过程称为检索过程。索引一般称之为索引名,这样可能更好理解一点。

用户爬虫那些事

用户爬虫是网络爬虫的一种类型,所谓用户爬虫就是指的专门用来爬取互联网中用户数据的一种爬虫,由于互联网中的用户数据信息一般都是比较敏感的信息,所以爬虫的利用价值也比较高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值