一.获取数据的方式:
1.企业产生的数据
2.数据平台购买的数据
3.政府/机构公开的数据
4.数据管理咨询公司的数据
5.爬取的网络数据
二、爬虫的概念
网络爬虫又称网页蜘蛛网络机器人,是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本。
爬虫数据是指互联网上公开的且可以访问到的网页信息。
三、爬虫的用途
1.代替手工完成很多事情(使用网络爬虫搜集金融领域的数据资源)
2.浏览网页信息爬取信息过滤广告
3.网站购买商品,知道品牌、价格走势等信息,以便做出进一步的分析。
4.推销产品时,目标客户及联系方式
实现自动化采集互联网的数据,从而更高效地利用互联网中的有效信息。
四、爬虫的分类
按照使用场景
(1)通用爬虫
通用爬虫又称全网爬虫,它将爬取对象从一些种子URL扩充到整个网络,主要用途是为门户站点搜索引擎和大型Web服务提供商采集数据。
特点:
爬取范围广、对硬件要求高(CPU,存储)、更新频率低。
(2)聚焦爬虫
聚焦爬虫又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关的页面的网络爬虫。
特点:
爬虫范围窄、对硬件要求低、更新频率快。
按照爬取形式
(1)累积式爬虫
累积式爬虫是指从某一个时间点开始,通过遍历的方式爬取系统所允许存储和处理的所有网页。
特点:
爬取页面比较多、对应硬件要求高、数据更新慢
(2)增量式爬虫
增量式爬虫是指在具有一定量规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行爬取,以保证所爬取到的数据与真实网络数据足够接近。进行增量式爬取的前提是,系统已经爬取了足够数量的网络页面,并具有这些页面被爬取的时间信息。
只会在需要时爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。
特点:
爬取页面少、对硬件要求不高、数据更新比较快
通常是先通过累积式爬虫爬取数据后,再通过增量式爬虫进行更新。
按照爬取数据的存在方式
(1)表层爬虫
爬取表层网页的爬虫叫作表层爬虫。表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。
(2)深层爬虫
爬取深层网页的爬虫就叫作深层爬虫。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。例如,用户注册后内容才可见的网页就属于深层网页。