【Python爬虫教程】基础篇-06 爬虫的基本原理

仲君Johnny

已于 2024-03-21 17:04:01 修改

阅读量2k

点赞数 24

分类专栏： python爬虫逆向教程文章标签：爬虫网络爬虫 python web

于 2024-02-02 14:17:57 首次发布

本文链接：https://blog.csdn.net/lizhongjun1005/article/details/135992579

版权

python爬虫逆向教程专栏收录该内容

38 篇文章 2 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Python爬虫的基本原理，包括获取网页、提取信息、保存数据和自动化程序。重点讲解了如何利用Python库如urllib、requests等获取网页源代码，并使用Beautiful Soup等库解析和提取数据。还讨论了JavaScript渲染的页面抓取，以及会话和Cookies在爬虫中的应用，帮助理解动态网页和登录状态的保持。

摘要由CSDN通过智能技术生成

我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。

爬虫概述

简单来说，爬虫就是获取网页并提取和保存信息的自动化程序，下面概要介绍一下。

1. 获取网页

爬虫首先要做的工作就是获取网页，这里就是获取网页的源代码。源代码里包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息了。

前面讲了请求和响应的概念，向网站的服务器发送一个请求，返回的响应体便是网页源代码。所以，最关键的部分就是构造一个请求并发送给服务器，然后接收到响应并将其解析出来，那么这个流程怎样实现呢？总不能手工去截取网页源码吧？

不用担心，Python 提供了许多库来帮助我们实现这个操作，如 urllib、requests 等。我们可以用这些库来帮助我们实现 HTTP 请求操作，请求和响应都可以用类库提供的数据结构来表示，得到响应之后只需要解析数据结构中的 Body 部分即可，即得到网页的源代码，这样我们可以用程序来实现获取网页的过程了。