第二节——发送请求

最新推荐文章于 2024-09-27 22:51:18 发布

暮雨涵

最新推荐文章于 2024-09-27 22:51:18 发布

阅读量1.3k

点赞数

分类专栏：网络爬虫基础文章标签：爬虫 http 网络协议

本文链接：https://blog.csdn.net/analytik/article/details/124962386

版权

2 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

@TOC爬虫的请求（1）

1. “上网”时数据传输的过程

当我们使用浏览器“上网”查找数据的时候，整个流程涉及到四个“主体”：

整个数据传输过程，可以分为两大类：
第一类：直来直去型
我们以百度搜索周杰伦为例：

在这里插入图片描述 第二类：曲线救国型
我们以刷微博为例

在这里插入图片描述

顾名思义，就是采用代码，摸拟浏览器发送请求的各个操作

代码如下（示例）：

import request   #导入一个工具，这个工具可以将请求发出去

代码如下（示例）：

url = 'http://www.baidu.com'    # 给个url
response = request.get(url)		# 使用“get”方法拿到返回值，并赋值给response
print(response.text)	        # 打印出返回的文本

以上，采用四行最简单的代码，采用python摸拟浏览器发送请求，并获取数据。

这就是最基本的请求结构。

刚才以最简单的方式向百度发送了一个请求，获取了百度主页的源代码。期间并没有涉及任何多余的参数。在实际工作中，网站是把自己的数据视若珍宝的，必然会设置一些门槛或者检验措施，不允许随随便便简单的三四行代码就轻松获取自己的辛辛苦苦整理的数据。

那既然想要获取对方的数据，就要进一步修饰一下代码，把它打扮的更像是一个浏览器，这样就能躲过服务器的检查，从而获取数据。

那么，从那几个方面进行“化妆”呢？这就要进一步深挖浏览器发送请求的细节了。

当你在搜索框中输入“周杰伦”，按下回车的那一瞬间。浏览器向服务器发过去的信息，包含了以下三部分：

这三部分，也要在代码中有所体现，才能更真实的伪装成浏览器。

请求行
请求行，相当于“标题”，包含了本次请求的url，请求方式，协议。
在刚才的四行代码中，
url = ‘http://xxxxxxx’标注出了协议方式及url信息
request.get()中的get表明了请求方式。
请求方式常用的只有post和get两种方式，具体差异在此不做赘述。

url = 'http://www.baidu.com'    # 给个url
response = request.get(url)		# 使用“get”方法拿到返回值，并赋值给

请求头
请求头是重点的“化妆”区，服务器会重点检查请求头中的信息，判断是不是真的“浏览器”发来的请求。
要在这里加上多种修饰信息。具体有：

请求体

在代码中一般用不到，服务器一般不查这个。用到再讲。