Python爬虫：原理与实战(1)，面试官不讲武德

最新推荐文章于 2024-05-30 11:43:13 发布

m0_60607289

最新推荐文章于 2024-05-30 11:43:13 发布

阅读量707

点赞数 19

分类专栏： 2024年程序员学习文章标签： python 爬虫网络

本文链接：https://blog.csdn.net/m0_60607289/article/details/137792040

版权

2024年程序员学习专栏收录该内容

243 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

正文

一、Python爬虫原理

1、爬虫是什么？

如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序。

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用；

2、爬虫的基本流程

Python爬虫的核心原理是通过模拟浏览器的行为，自动访问目标网站，并抓取其中的数据。这个过程主要包括以下几个步骤：

发送请求：使用Python中的第三方库（如requests）向目标网站发送HTTP请求，获取网页的HTML代码。
解析网页：利用Python的解析库（如BeautifulSoup、lxml等）对获取的HTML代码进行解析，提取出所需的数据。
存储数据：将解析得到的数据存储到本地文件、数据库或其他存储介质中，以便后续分析和处理。

用户获取网络数据的方式：

方式1：浏览器提交请求—>下载网页代码—>解析成页面

方式2：模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

爬虫要做的就是方式2。

1、发起请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

Request模块缺陷：不能执行JS 和CSS 代码

2、获取响应内容

如果服务器能正常响应，则会得到一个Response

Response包含：html，json，图片，视频等

3、解析内容

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以wb的方式写入文件

4、保存数据

数据库（MySQL，Mongdb、Redis）

文件

接下来，我们将通过一个实战案例来演示如何使用Python爬虫抓取目标网站的数据。

3、客户端HTTP请求格式

在网络传输中HTTP协议非常重要，该协议规定了客户端和服务器端请求和应答的标准。HTTP协议能保证计算机正确快速地传输超文本文档，并确定了传输文档中的哪一部分，以及哪一部分内容首先显示（如文本先于图形）等。
根据HTTP协议的规定，客户端发送了一个HTTP请求到服务器的请求消息，由请求行、请求头部、空行以及请求数据四个部分组成。

下面结合一个典型的HTTP请求示例，详细介绍HTTP请求信息的各个组成部分：

Get https://www.baidu.com/ HTTP/1.1
Host: www.baidu.com
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.7
Referer: https://www.baidu.com/link?url=8vUrPYDUaSkXWxUEOlT8QhvB5kMr1o6I27EP0NJICmG&wd=&eqid=e69078350001654000000003641051fc
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9
Cookie: BIDUPSID=498703BAB592E42B1A4200A2F69121AD; PSTM=1657099499; MCITY=-291%3A; BAIDUID=498703BAB592E42BC6776C4114ED28E6:SL=0:NR=10:FG=1; BD_UPN=12314753; BDUSS=J5OEFjZ3pBb05tR3QxNUo0TEVJdjVpYzQ5Q2FORC04TnlrMHhFYkhRMnNKeGxrRVFBQUFBJCQAAAAAAQAAAAEAAAAXv8pawrfIy73U1qpUYQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAKya8WOsmvFjLT; BDUSS_BFESS=J5OEFjZ3pBb05tR3QxNUo0TEVJdjVpYzQ5Q2FORC04TnlrMHhFYkhRMnNKeGxrRVFBQUFBJCQAAAAAAQAAAAEAAAAXv8pawrfIy73U1qpUYQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAKya8WOsmvFjLT;

（1）请求行
第一行为请求行，包含了请求的方法，URL地址和协议版本。GET是请求方法，https：//www.baidu.com是URL地址，HTTP/1.1指定了协议版本。
不同的请求方法含义不同，如下：


序号	方法	描述
1	GET	请求指定的页面信息，并返回实体主体
2	POST	向指定资源提交数据进行处理请求（如提交表单或者上传文件），数据被包含在请求体中。Post请求可能会导致新的资源的建立和已有资源的修改
3	HEAD	类似于GET请求，只不过返回的响应中没有具体的内容，用于获取报头
4	PUT	这种请求方式下，从客户端向服务器传送的数据取代指定的文档的内容
5	DELETE	请求服务器删除指定的页面
6	CONNECT	HTTP1.1协议中预留给能够将连接改为管道方式的代理服务器
7	OPTIONS	允许客服端查看服务器的性能
8	TRACE	回显服务器收到的请求，主要用于测试或诊断

其中GET和POST请求最常用，区别在于：

GET是从服务器上获取指定页面信息，POST是向服务器提交数据并获取页面信息。

GET请求参数都显示在URL上，服务器根据该请求所包含URL中的参数来产生响应内容。由于请求参数都暴露在外，所以安全性不高。

POST请求参数在请求体中，消息长度没有限制而且采取隐式发送，通常用来向HTTP服务器提交量比骄大的数据（如请求中包含许多参数或者文件上传的操作）POST请求的参数不在URL中，而在请求体中，在安全性方面比GET请求要高。

（2）请求报头
请求行下是若干个请求报头，下面介绍常用的请求报头及含义：

Host（主机和端口号）：指定被请求的资源的Internet主机和端口号，对应网址URL中的Web名称和端口号，通常属于URL的Host部分。
Connection(连接类型）：表示客户端与服务端的连接类型。
Upgrade-Insecure-Requests(升级为HTTPS请求）：表示升级不安全的请求，会在加载HTTP资源时自动替换成HTTPS请求，让浏览器不再显示HTTPS页面中的HTTP请求警报。HTTPS时以安全为目标的HTTP通道，所以在HTTPS承载的页面上不允许出现HTTP请求，一旦出现就会提示或报错。
User-Agent(浏览器名称）：表示客户端身份的名称，通常页面会根据不同的User-Agent信息自动做出适配，甚至返回不同的响应内容。
Accept(传输文件类型）：指浏览器或其他客户端可以接受的MIME(Multipurpose Internet Mail Extensions,多用途因特网邮件扩展)文件类型，服务器可以根据他判断并返回适当的文件格式
Referer(页面跳转来源）：表明产生请求的网页来自于哪个URL，用户是从该Referer页面访问到当前请求的页面。这个属性可以用来跟踪Web请求来自哪个页面，是从什么网站下载下来的，有时下载某网站的图片时，需要对应的Referer，否则是无法下载图片，那是因为做了防盗链。原理就是根据Referer去判断URL是否是本网站的地址，如果不是，则拒绝，如果是，就可以下载。

4. 服务器HTTP响应格式

HTTP响应报文由四部分组成，分别是状态行，响应报头，空行和响应正文。
文末有福利领取哦~

👉一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

👉二、Python必备开发工具

👉三、Python视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

👉 四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（文末领读者福利）

👉五、Python练习题

检查学习结果。

👉六、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

👉因篇幅有限，仅展示部分资料，这份完整版的Python全套学习资料已经上传

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）
[外链图片转存中…(img-xcFcOFA2-1713179551967)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

m0_60607289

关注

19
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫：原理与实战(1)，面试官不讲武德

原理就是根据Referer去判断URL是否是本网站的地址，如果不是，则拒绝，如果是，就可以下载。POST请求参数在请求体中，消息长度没有限制而且采取隐式发送，通常用来向HTTP服务器提交量比骄大的数据（如请求中包含许多参数或者文件上传的操作）POST请求的参数不在URL中，而在请求体中，在安全性方面比GET请求要高。如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序。
复制链接

扫一扫