Python爬虫之爬虫的基本原理

最新推荐文章于 2023-04-26 14:09:39 发布

mengy7762

最新推荐文章于 2023-04-26 14:09:39 发布

阅读量599

点赞数

分类专栏： python 爬虫程序员文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/mengy7762/article/details/121339615

版权

本文介绍了Python爬虫的基本原理，包括获取网页源代码、使用正则表达式或库提取信息、保存数据以及处理JavaScript渲染的页面。通过urllib、requests、BeautifulSoup等库实现自动化爬取，同时探讨了Ajax和JavaScript渲染页面的应对策略。

摘要由CSDN通过智能技术生成

爬虫的基本原理

我们可以把互联网比作一张大网，而爬虫（即网络爬虫）就是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的连接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网络的数据就可以被抓取下来了。

爬虫概述

简单来说，爬虫就是获取网页并提取和保存信息的自动化程序，下面概要介绍一下：

1.获取网页

爬虫首先要做的工作就是获取网页，这里就是获取网页的源代码。源代码里包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息了。

我们前面讲过了请求和相应的概念，向网站的服务器发送一个请求，返回的响应体便是网页源代码。所以，最关键的部分就是构造一个请求并发送给服务器，然后接收到响应并将其解析出来，那么这个流程怎样实现呢？我们不可能手动去截取网页的源代码的吧？

Python提供了许多库来帮助我们实现这个操作，如urllib、requests等。我们可以用这些苦来帮助我们实现HTTP请求操作，请求和响应都可以用类库提供的数据结构来表示，得到响应之后只需要解析数据结构中的Body部分即可，即得到网页的源代码，这样我们可以用程序来实现获取网页的过程了。最后，如果你的时间不是很紧张，并且又想快速的python提高，最重要的是不怕吃苦，建议你可以架微♥信：762459510 ，那个真的很不错，很多人进步都很快，需要你不怕吃苦哦！大家可以去添加上看一下~