python爬虫入门（一）之HTTP请求和响应

橙意满满的西瓜大侠

已于 2024-07-05 15:53:34 修改

阅读量977

点赞数 18

分类专栏： Python 文章标签： python 爬虫开发语言

于 2024-07-05 12:46:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2302_79795489/article/details/140186211

版权

Python 专栏收录该内容

14 篇文章 2 订阅

订阅专栏

一、爬虫的三个步骤（要学习的内容）

1、获取网页内容（HTTP请求、Requests库）

2、解析网页内容（HTML网页结构、Beautiful Soup库）

3、存储或分析数据

b站学习链接：

【【Python+爬虫】爆肝两个月！拜托三连了！这绝对是全B站最用心（没有之一）的Python+爬虫公开课程，从入门到（不）入狱！】 https://www.bilibili.co/video/BV1d54y1g7db/?share_source=copy_web&vd_source=7e5d8bc8e5429bc3a99a6b8e86b901f8

二、HTTP

1、什么是HTTP？

http: Hypertext Transfer Protocol（超文本传输协议）

客户端和服务器之间的请求-响应协议

eg: 浏览器可看作一个服务端，在浏览器中输入网址，

浏览器就会向运行该网站的服务器发送请求，

然后等待服务器返回给浏览器响应

2、HTTP的两种请求方法

1、GET（获得数据）

大部分用get

2、POST（创建数据）

3、HTTP请求的组成结构

（1）请求行：

POST / user / info ? new_user=true HTTP / 1.1

方法类型资源路径?查询参数 HTTP的协议版本

资源路径：指明要访问服务器的哪个资源

查询参数：写在？后面，传递给服务器额外的信息，不同信息之间用&分隔

eg: www.douban.com / movie /top250 ？start=75&filter=unwatched

主机域名（+资源路径）（+查询参数）== 网址

（2）请求头：

Host: www.douban.com 主机域名

User-Agent: curl /7.77.0 用来告知服务器客户端的相关信息

请求是什么东西发出来的，以及这个东西的版本

eg: curl / 7.77.0（curl命令行工具发出的)

python-requests / 2.25.1 （python的requests库发出的）

Accept: */* 告诉服务器，客户端想接收的响应数据的类型

eg: 接受HTML：text / html

接受HTML和JOSN：text / html, application / json （多种类型用逗号分隔开）

接受任意类型：*/*

（3）请求体：客户端传给服务器的其他任意数据

（GET的请求体一般是空的）

{"username":"西瓜大侠",

"email":"3380958706@qq.com"}

简言之，HTTP请求由三部分组成：

请求行：用什么方法查询什么资源 + HTTP的版本

请求头：主机域名 + 客户端是什么及其版本 + 客户端想接受的响应类型

（where who what 服务器在哪儿客户端是谁客户端想要什么)

请求体：客户端的其他数据

4、HTTP响应的组成结构

（1）状态行：

HTTP / 1.1 200 OK

协议版本状态码状态消息

状态码和状态消息相对应：

2开头：表示请求成功

3开头：表示重定向，需要进一步的操作

4开头：表示客户端错误（请求不能被理解、请求未授权或404请求的资源不存在...）

5开头：表示服务器错误（出现问题或正在维护）

（2）响应头：包含一些告知客户端的信息

Date: Fri, 27 Jan 2023 02:10:48 GMT 生成相应的日期和时间

Content-Type: text/html; charset=utf-8 返回内容的类型及编码格式

（3）响应体：服务器想给客户端的数据内容

橙意满满的西瓜大侠

关注

18
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
python爬虫入门（一）之HTTP请求和响应

http: Hypertext Transfer Protocol（超文本传输协议）客户端和服务器之间的请求-响应协议eg: 浏览器可看作一个服务端，在浏览器中输入网址，浏览器就会向运行该网站的服务器发送请求，然后等待服务器返回给浏览器响应。
复制链接

扫一扫

专栏目录

橙意满满的西瓜大侠 CSDN认证博客专家 CSDN认证企业博客

码龄1年

57: 原创

9万+: 周排名

3万+: 总排名

2万+: 访问

: 等级

920: 积分

312: 粉丝

337: 获赞

15: 评论

249: 收藏

私信

关注

热门文章

分类专栏

刷题录 5篇
数模 11篇
Python 14篇
computer-user 7篇
前端 5篇
C++ 10篇
easyx学习 4篇

最新评论

前端学习（二）之HTML
穷苦书生_万事愁: 博主在关于前端学习（二）之HTML的博客文章中，展现了他对这一领域的深刻理解和独特见解。通过细致入微的描述和丰富的案例分析，让我对HTML有了全新的认识，收获颇丰。期待博主未来能够继续分享更多优秀的文章，为我们指引前端学习的方向。感谢博主的辛勤付出和宝贵分享，希望能够得到更多博主的指导，共同进步。
easyx入门（一）窗口、图形和文字
CSDN-Ada助手: 恭喜您写了第13篇博客！看了您的文章，对easyx的入门有了更深入的了解，窗口、图形和文字的介绍十分详细。希望您能继续坚持创作，让更多人受益。下一步可以考虑深入探讨easyx的高级功能或者结合实际案例进行实战演练，期待您的更多精彩内容！
easyx入门（二）鼠标消息
CSDN-Ada助手: 恭喜您写了第14篇博客！学习easyx入门（二）鼠标消息确实是一个不错的选择，希望您能继续保持创作的热情和劲头。接下来，建议您可以尝试深入探讨easyx中其他消息的处理方式，或者分享一些实用的技巧和经验，相信会对读者们有很大的帮助。期待您的下一篇作品！愿您在创作道路上越走越远！
关于easyx头文件的那些事
CSDN-Ada助手: 恭喜您撰写了第15篇博客“关于easyx头文件的那些事”！您对这个主题的深入探讨让读者受益匪浅。希望您能继续保持创作的热情和耐心，不断学习和积累经验。下一步，或许可以考虑分享一些实际案例或者应用技巧，让读者更快速地掌握相关知识。期待您更多精彩的作品！
关于easyx头文件的那些事
橙意满满的西瓜大侠: 电脑端才能看清图

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。