1.初识爬虫

最新推荐文章于 2022-12-27 17:55:57 发布

YANG_xiao_QI

最新推荐文章于 2022-12-27 17:55:57 发布

阅读量643

点赞数

分类专栏： 2.python爬虫（课程笔记）文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YANG_xiao_QI/article/details/114833538

版权

2.python爬虫（课程笔记）专栏收录该内容

15 篇文章 3 订阅

订阅专栏

一.获取数据的方式：

1.企业产生的数据
2.数据平台购买的数据
3.政府/机构公开的数据
4.数据管理咨询公司的数据
5.爬取的网络数据

二、爬虫的概念

网络爬虫又称网页蜘蛛网络机器人，是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本。
爬虫数据是指互联网上公开的且可以访问到的网页信息。

三、爬虫的用途

在这里插入图片描述
1.代替手工完成很多事情（使用网络爬虫搜集金融领域的数据资源）

2.浏览网页信息爬取信息过滤广告

3.网站购买商品，知道品牌、价格走势等信息，以便做出进一步的分析。

4.推销产品时，目标客户及联系方式
实现自动化采集互联网的数据，从而更高效地利用互联网中的有效信息。

四、爬虫的分类

按照使用场景
（1）通用爬虫
通用爬虫又称全网爬虫，它将爬取对象从一些种子URL扩充到整个网络，主要用途是为门户站点搜索引擎和大型Web服务提供商采集数据。
特点：

爬取范围广、对硬件要求高（CPU，存储）、更新频率低。
（2）聚焦爬虫

聚焦爬虫又称主题网络爬虫，是指选择性地爬行那些与预先定义好的主题相关的页面的网络爬虫。
特点：

爬虫范围窄、对硬件要求低、更新频率快。

按照爬取形式
（1）累积式爬虫

累积式爬虫是指从某一个时间点开始，通过遍历的方式爬取系统所允许存储和处理的所有网页。
特点：

爬取页面比较多、对应硬件要求高、数据更新慢
（2）增量式爬虫

增量式爬虫是指在具有一定量规模的网络页面集合的基础上，采用更新数据的方式选取已有集合中的过时网页进行爬取，以保证所爬取到的数据与真实网络数据足够接近。进行增量式爬取的前提是，系统已经爬取了足够数量的网络页面,并具有这些页面被爬取的时间信息。
只会在需要时爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面，可有效减少数据下载量,及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。
特点：

爬取页面少、对硬件要求不高、数据更新比较快

通常是先通过累积式爬虫爬取数据后，再通过增量式爬虫进行更新。

按照爬取数据的存在方式
（1）表层爬虫

爬取表层网页的爬虫叫作表层爬虫。表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的Web页面。

（2）深层爬虫

爬取深层网页的爬虫就叫作深层爬虫。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。例如，用户注册后内容才可见的网页就属于深层网页。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
1.初识爬虫

一.获取数据的方式：1.企业产生的数据2.数据平台购买的数据3.政府/机构公开的数据4.数据管理咨询公司的数据5.爬取的网络数据二、爬虫的概念网络爬虫又称网页蜘蛛网络机器人，是一种按照一定的规则、自动请求万维网网站并提取网络数据的程序或脚本。三、爬虫的用途...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。