1.初识爬虫

一.获取数据的方式:

1.企业产生的数据
2.数据平台购买的数据
3.政府/机构公开的数据
4.数据管理咨询公司的数据
5.爬取的网络数据

二、爬虫的概念

网络爬虫又称网页蜘蛛网络机器人,是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本。
爬虫数据是指互联网上公开的且可以访问到的网页信息。

三、爬虫的用途

在这里插入图片描述
1.代替手工完成很多事情(使用网络爬虫搜集金融领域的数据资源)

2.浏览网页信息爬取信息过滤广告

3.网站购买商品,知道品牌、价格走势等信息,以便做出进一步的分析。

4.推销产品时,目标客户及联系方式
实现自动化采集互联网的数据,从而更高效地利用互联网中的有效信息。

四、爬虫的分类

按照使用场景
(1)通用爬虫
通用爬虫又称全网爬虫,它将爬取对象从一些种子URL扩充到整个网络,主要用途是为门户站点搜索引擎和大型Web服务提供商采集数据。
特点:

爬取范围广、对硬件要求高(CPU,存储)、更新频率低。
(2)聚焦爬虫

聚焦爬虫又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关的页面的网络爬虫。
特点:

爬虫范围窄、对硬件要求低、更新频率快。

按照爬取形式
(1)累积式爬虫

累积式爬虫是指从某一个时间点开始,通过遍历的方式爬取系统所允许存储和处理的所有网页。
特点:

爬取页面比较多、对应硬件要求高、数据更新慢
(2)增量式爬虫

增量式爬虫是指在具有一定量规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行爬取,以保证所爬取到的数据与真实网络数据足够接近。进行增量式爬取的前提是,系统已经爬取了足够数量的网络页面,并具有这些页面被爬取的时间信息。
只会在需要时爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。
特点:

爬取页面少、对硬件要求不高、数据更新比较快

通常是先通过累积式爬虫爬取数据后,再通过增量式爬虫进行更新。

按照爬取数据的存在方式
(1)表层爬虫

爬取表层网页的爬虫叫作表层爬虫。表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。

(2)深层爬虫

爬取深层网页的爬虫就叫作深层爬虫。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。例如,用户注册后内容才可见的网页就属于深层网页。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值