HTTP请求（Request)详解

最新推荐文章于 2025-03-11 21:05:30 发布

Triumph19

最新推荐文章于 2025-03-11 21:05:30 发布

阅读量9.3k

点赞数 9

文章标签： python

本文链接：https://blog.csdn.net/triumph19/article/details/118462184

版权

# HTTP请求（Request)
'''
当用户通过浏览器访问某个网站时，
浏览器会向网站服务器发送请求，这个请求就叫做HTTP请求。
请求包含的内容主要有:
请求方法（Request Method);
请求网址(Request URL);
请求头（Request Headers);
请求体(Request Body)。
'''

#为了更直观地说明这个过程，我们使用Chrome浏览器自带的“开发者工具”来查看浏览器发送的请求信息。
# 下面以访问百度（https://www.baidu.com/）为例来讲解。
'''
1.打开Chrome浏览器，按F12键，显示“开发者工具”栏。
2.在地址栏中输入百度网址https://www.baidu.com/，然后回车。
3.此时“开发者工具”栏抓去了许多浏览器请求及服务器响应信息。
'''

在这里插入图片描述

# 下面来看一下浏览器向百度的网站服务器发送了哪些信息。
#1.请求方法（Request Method)
'''
HTTP协议定义了许多与服务器交互的方法，最常用的是GET和PLST方法。
如果浏览器向服务器发送一个GET请求，
则请求的参数信息会直接包含在URL中。
例如在百度搜索栏中输入scrapy，单击"百度一下“按钮，就形成了一个GET请求。
搜索结果页面的URL变为https://www.baidu.com/s?wd=scrapy,
URL中问号（？）后面的wd=scrapy就是请求的参数，表示要搜索的关键字。

POST请求主要用于表单的提交。
表单中输入的卡号、密码等隐私信息通过POST请求方式提交后，
数据不会暴露在URL中，而是保存于请求体中，避免了信息的泄露。
'''

# 2.请求网址（Request URL)
'''
另外，还有一个选项Remote Address: 14.215.177.38:443，这是百度服务器的IP地址。
也可以使用IP地址来访问百度。
'''

# 3.请求头（Request Headers)
'''
请求头的内容在Headers选项卡中的Request Headers目录下，
如下图所示。请求头中包含了许多有关客户端环境和请求正文的信息，
比较重要的信息有Cookie和User-Agent等。
'''

在这里插入图片描述


'''
Accept:浏览器端可以接收的媒体类型。
text/html代表浏览器可以接收服务器发送的文档类型为text/html,也就是我们常说的HTML文档。
Accept-Encoding:浏览器接受的编码方式。
Accept-Language:浏览器所接受的语言种类。
Connection:表示是否需要持久连接。keep-alive表示浏览器与网站服务器保持连接；close表示一个请求结束后，浏览器和网站服务器就会断开，下次请求时需重新连接。
Cookie:有时也用复数形式Cookies，指网站为了提高用户身份、进行会话跟踪而存储在本地的数据（通常经过加密），由网站服务器创建。
例如当我们登录后，访问该网站的其他页面时，发现都是处于登录状态，这是Cookie在发挥作用。
因为浏览器每次在请求该站点的页面时，都会在请求头上加上保存有用户名和密码等信息的Cookie并将其发送给服务器，
服务器识别出该用户后，就将页面发送给服务器。
在爬虫中，有时需要爬取登录后才能访问的页面，通过对Cookie进行设置，就可以成功访问登录后的页面了。

Host:指定被请求资源的Internet主机和端口号，通常从URL中提取。

User-Agent:告诉网站服务器，客户端使用的操作系统、浏览器的名称和版本、CPU版本，以及浏览器渲染引擎、浏览器语言等。
在爬虫中，设置此项可以将爬虫伪装成浏览器。

'''

# 4.请求体（Request Body)
'''
请求体中保存的内容一般是POST请求发送的表单数据。
对于GET请求，请求体为空。
'''