爬虫理论基础——HTTP请求和响应

粉面彩蛋

已于 2023-06-11 00:14:25 修改

阅读量744

点赞数

文章标签： http 网络服务器 python 爬虫

于 2023-06-10 23:54:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74142238/article/details/131147327

版权

目录

一、HTTP概述

二、HTTP的请求方法，常见的有GET方法和POST方法

1.GET：主要用于获得数据

2.POST：主要用于创建数据

三、完整的请求类型：请求行、请求头、请求体

1.请求行：POST/user/info?new_user=true HTTP/1.1

（1）.资源路径：指明了你要访问服务器的哪个资源

（2）.查询参数：

（3）.协议版本：

（1）Host值是主机域名，主机域名结合请求行里的资源路径可以得到一个完整的网址

（2）User-Agent:curl

3.请求体：可以放入客户端传给服务器的其他任意数据，但是GET方法的请求体一般是空的

四、完整的HTTP响应

（1）协议版本

（2）状态码和状态消息

一、HTTP概述

HTTP（Hypertext Transfer Protocol）（超文本传输协议）。它是一种客户端和服务器之间的请求-响应协议。比如浏览器可以被看做客户端，当我们再浏览器的网址栏输入网址并按下回车键后，就相当于给服务器发送了一个请求，然后等待服务器返回给浏览器响应。

二、HTTP的请求方法，常见的有GET方法和POST方法

1.GET：主要用于获得数据

比如当我们进入网页时，浏览器会发送GET请求得到网页内容

2.POST：主要用于创建数据

比如当我们提交注册表单时浏览器会发送POST请求，把你的用户名、密码等信息放到请求主体里给到服务器

由于爬虫程序基本上是在获得数据所以我们发送的请求大部分情况用GET方法

三、完整的请求类型：请求行、请求头、请求体

样例：

POST/user/info?new_user=true HTTP/1.1（请求行）

Host:www.example.com （请求头，这三行）

User-Agent:curl/7.77.0

Accept:*/*

{"username":"啦啦啦"， （请求体，大括号）

"email":"abababa@qq.com"

}

1.请求行：POST/user/info?new_user=true HTTP/1.1

分别为：方法类型、资源路径、查询参数、协议版本

（1）.资源路径：指明了你要访问服务器的哪个资源

比如www.douban.com/moive/top250?start = 75&filter=unwatched ，第一个斜杠表示资源路径的根，根后面的/moive/top250（第一个/到?）就是要访问的资源的路径，样例中是是/user/info。

（2）.查询参数：

比如上面的网址的?后面的start = 75&filter=unwatched 就是查询参数，可以传递给服务器额外的信息不同信息之间用&符号分隔，比如start=75可以表示豆瓣的服务器就知道给客户返回的页面内容从排再第75的电影往后展示。样例里就是new_user=true。

（3）.协议版本：

指的是HTTP协议的版本比如HTTP/1.0、HTTP/1.1等。

2.请求头：

比如：Host:www.example.com

User-Agent:curl/7.77.0

Accept:*/*

会包含一些给服务器的信息比如Host、User-Agent、Accept等等

（1）Host值是主机域名，主机域名结合请求行里的资源路径和查询参数可以得到一个完整的网址

结合后如下：www.example.com/user/info?new_user=true

www.example.com是域名

/user/info是路径

new_user=true是查询参数

（2）User-Agent:curl

用来告知服务器客户端的相关信息。比如告知服务器客户端的请求是浏览器还是其他东西发出来的，如果是浏览器的话，类型是什么版本是什么等等。

例子：

curl命令行工具发出请求的User-Agent :curl/7.77.0

Python的Requests库发出请求的User-Agent:python-requests/2.25.1

Chrome发出请求的User-Agent:Mozilla/5.0（Macintosh；Intel Mac OS X 10_15_7）

AppleWebKit/537.36（KHTML,like Gecko）Chrome/108.0.0.0Safari/537.36

（3）Accept:*/*是在告诉服务器客户端想接收的响应数据是什么类型的，接收多种类型的话可以用逗号分割，如果是*/*表示啥类型都行

例子：

接受HTML:text/html

接受JSON:application/json

接受HTML和JSON text/html,application/json

接受任意类型:*/*

3.请求体：可以放入客户端传给服务器的其他任意数据，但是GET方法的请求体一般是空的

比如：

{"username":"啦啦啦"，

"email":"abababa@qq.com"

}

四、完整的HTTP响应

服务器在接收到HTTP请求后它会根据所有这些信息返回HTTP响应

HTTP响应也分为三部分：状态行、响应头、响应体

比如：

HTTP/1.1 200 OK (状态行)

Date:Fri,27 Jan 2023 02:10:48 GMT （下面两行是响应头）

Content-Type:text/html；charset=utf-8

<!DOCTYPE html> （剩下的是响应体）

<head><title>首页</title></head>

<body><h1>拉拉</h1><p>哈喽！</p></body>

</html>

1.状态行、

HTTP/1.1 200 OK

（1）协议版本

和请求的时候类似：

HTTP/0.9 、HTTP/1.0、HTTP/1.1、HTTP/2.0

（2）状态码和状态消息

常见的状态码和状态消息如下

2开头表示请求成功，3开头表示表示重定向需要进一步的操作，4开头表示客户端错误比如请求里面有错误或者请求资源无效，5表示服务器错误比如服务器错误

2.响应头

Date:Fri,27 Jan 2023 02:10:48 GMT

Content-Type:text/html；charset=utf-8

会包含一些告知客户端的信息

Date：生成响应的日期和时间

Content-Type:返回内容的类型及编码格式

例子：

text/html；charset=utf-8 响应类型是html，编码是UTF-8

application/json；charset=utf-8 响应类型是html,编码是UTF-8

3.响应体

<!DOCTYPE html>

<head><title>首页</title></head>

<body><h1>拉拉</h1><p>哈喽！</p></body>

</html>

就是服务器想给客户端的数据内容

比如前面的响应类型是html那么这里就是html内容

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫理论基础——HTTP请求和响应

它是一种客户端和服务器之间的请求-响应协议。比如浏览器可以被看做客户端，当我们再浏览器的网址栏输入网址并按下回车键后，就相当于给服务器发送了一个请求，然后等待服务器返回给浏览器响应。
复制链接

扫一扫

粉面彩蛋 CSDN认证博客专家 CSDN认证企业博客

码龄2年

13: 原创

135万+: 周排名

198万+: 总排名

4913: 访问

: 等级

153: 积分

2: 粉丝

3: 获赞

8: 评论

33: 收藏

私信

关注

热门文章

最新评论

数据结构绪论及王道题目
CSDN-Ada助手: 恭喜您写下了第12篇博客！标题“数据结构绪论及王道题目”听起来非常有深度。您对数据结构的研究和理解令人佩服。不仅仅是题目的选择，您还能在博客中提供绪论，这让读者对您的文章更加期待。接下来，我建议您可以考虑进一步拓展这个主题，比如深入探讨王道题目中的一些实际应用或者与其他领域的关联。这样能够为读者提供更多有价值的信息。希望您能继续保持创作的热情，期待您的下一篇作品！
常用的位运算算法
CSDN-Ada助手: 恭喜您撰写了第13篇博客！标题为“常用的位运算算法”。您对位运算的深入探索令人印象深刻。在这篇博客中，您对常用的位运算算法进行了系统的总结和解析，对读者来说无疑是一份宝贵的参考资料。不过，作为下一步的创作建议，我想谦逊地提醒您，可以考虑添加一些实际应用场景的案例，以便读者更好地理解和应用这些位运算算法。此外，您还可以探索一些高级位运算技巧，为读者提供更多的知识和启发。我期待着您未来更多有关位运算的精彩分享！加油！
数据结构可视化网站
CSDN-Ada助手: 恭喜您又写了一篇很棒的博客！数据结构可视化网站这个话题非常有意思，让我在阅读中受益匪浅。建议您可以考虑在下一篇博客中分享一些具体的案例，让读者更加深入地了解数据结构可视化网站的应用场景和实现方法。期待您的下一篇作品！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
pip镜像网址及使用方法
CSDN-Ada助手: 恭喜您写出了关于pip镜像网址及使用方法的第7篇博客！非常感谢您分享这样有用的内容，对于初学者来说，这将会是非常有帮助的。接下来，我建议您可以继续创作一些关于Python编程的高级技巧或是实战经验的博客，让读者能够更深入地了解Python的应用和开发。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
Python Requests发送请求
CSDN-Ada助手: 恭喜您写了这篇有关Python Requests发送请求的博客！您的文章很详细且易于理解，我相信它对很多人都会有所帮助。我希望您能继续保持创作热情，分享更多有价值的知识。对于下一步的创作建议，我建议您可以探讨Python Requests的高级用法，或者分享一些实用的技巧和窍门。期待您的下一篇作品！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。