Python爬虫入门教程2024年最新版（非常详细）

python入门教程

已于 2024-01-05 11:04:16 修改

阅读量2.4k

点赞数 16

分类专栏： python 文章标签： python 爬虫开发语言 python入门爬虫python入门 python爬虫 python爬虫数据可视化

于 2023-11-24 22:28:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangluoanquan152/article/details/134607986

版权

初学Python之爬虫的简单入门

一、什么是爬虫？

1.简单介绍爬虫

爬虫的全称为网络爬虫，简称爬虫，别名有网络机器人，网络蜘蛛等等。

网络爬虫是一种自动获取网页内容的程序，为搜索引擎提供了重要的数据支撑。搜索引擎通过网络爬虫技术，将互联网中丰富的网页信息保存到本地，形成镜像备份。我们熟悉的谷歌、百度本质上也可理解为一种爬虫。

如果形象地理解，爬虫就如同一只机器蜘蛛，它的基本操作就是模拟人的行为去各个网站抓取数据或返回数据。

2.爬虫的分类

网络爬虫一般分为传统爬虫和聚焦爬虫。

传统爬虫从一个或若干个初始网页的URL开始，抓取网页时不断从当前页面上抽取新的URL放入队列，直到满足系统的一定条件才停止，即通过源码解析来获得想要的内容。

聚焦爬虫需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入待抓取的URL队列，再根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到满足系统的一定条件时停止。另外，所有被爬虫抓取的网页都将会被系统存储、分析、过滤，并建立索引，以便之后的查询和检索;对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

防爬虫:KS-WAF（网站统一防护系统）将爬虫行为分为搜索引擎爬虫及扫描程序爬虫，可屏蔽特定的搜索引擎爬虫节省带宽和性能，也可屏蔽扫描程序爬虫，避免网站被恶意抓取页面。使用防爬虫机制的基本上是企业，我们平时也能见到一些对抗爬虫的经典方式，如图片验证码、滑块验证、封禁 IP等等。

3.爬虫的工作原理

下图是一个网络爬虫的基本框架：

对应互联网的所有页面可划分为五部分：

1.已下载未过期网页。

2.已下载已过期网页：抓取到的网页实际上是互联网内容的一个镜像文件，互联网是动态变化的，一部分互联网上的内容已经发生了变化，这时，这部分抓取到的网页就已经过期了。

3.待下载网页：待抓取URL队列中的页面。

4.可知网页：既没有被抓取也没有在待抓取URL队列中，但可通过对已抓取页面或者待抓取URL对应页面进行分析获取到的URL，认为是可知网页。

5.不可知网页：爬虫无法直接抓取下载的网页。

待抓取URL队列中的URL顺序排列涉及到抓取页面的先后次序问题，而决定这些URL排列顺序的方法叫做抓取策略。下面介绍六种常见的抓取策略：

1.深度优先遍历策略

深度优先遍历策略是指网络爬虫从起始页开始，由一个链接跟踪到另一个链接，这样不断跟踪链接下去直到处理完这条线路，之后再转入下一个起始页，继续跟踪链接。以下图为例：

最低0.47元/天解锁文章

python入门教程

关注

16
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫入门教程2024年最新版（非常详细）

爬虫的全称为网络爬虫，简称爬虫，别名有网络机器人，网络蜘蛛等等。网络爬虫是一种自动获取网页内容的程序，为搜索引擎提供了重要的数据支撑。搜索引擎通过网络爬虫技术，将互联网中丰富的网页信息保存到本地，形成镜像备份。我们熟悉的谷歌、百度本质上也可理解为一种爬虫。如果形象地理解，爬虫就如同一只机器蜘蛛，它的基本操作就是模拟人的行为去各个网站抓取数据或返回数据。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。