【爬虫】Web基础——响应头、请求头、http&https、状态码（内含相关资源链接）

最新推荐文章于 2024-06-26 17:10:53 发布

是啥东西呢

最新推荐文章于 2024-06-26 17:10:53 发布

阅读量225

点赞数

分类专栏：前端 html 文章标签： http 爬虫 https

本文链接：https://blog.csdn.net/m0_67401270/article/details/123374834

版权

本文介绍了网络爬虫的基本概念，详细讲解了HTTP与HTTPS的区别，以及请求头（如Host、User-Agent、Referer、Cookie）和响应头（Content-Type、Content-Length、Set-Cookie）的关键字段。同时，概述了常见的HTTP状态码，如200、302、403、404、500和503，并提到了服务器如何处理爬虫的请求。最后，提供了多个相关学习资源链接。

摘要由CSDN通过智能技术生成

1 爬虫初步

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rdY0yiTe-1627002815762)(https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fimg.kanzhun.com%2Fimages%2Fseo%2Fmianshiti%2F20191125%2F529e60d55907b1fab58010ea8fab7376.jpg&refer=http%3A%2F%2Fimg.kanzhun.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=jpeg?sec=1629592183&t=4456f3af39bbb445ae4ae4e7d21aefac)]

2 请求头和响应头

2.1 常见请求头解析

下面尝试访问百度首页

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jRxbYcUF-1627002815796)(【Python爬虫】Web基础.assets/image-20210723083506547.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-95IkYWAN-1627002815816)(【Python爬虫】Web基础.assets/image-20210723083443222.png)]

Host ：用于指定被请求资源的Internet主机和端口号
Connection (连接类型)
- 关闭TCP连接
- 长连接（Keep-alive）,默认情况
U

最低0.47元/天解锁文章

是啥东西呢

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【爬虫】Web基础——响应头、请求头、http&https、状态码（内含相关资源链接）

1 爬虫初步网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。2 请求头和响应头2.1 常见请求头解析下面尝试访问百度首页Host ：用于指定被请求资源的Internet主机和端口号Connection (连接类型)关闭TCP连接长连接（Keep-alive）,默认情况Upgrade-Insecure-Requests (升级为HTTPS请求)：下面补充http与htt
复制链接

扫一扫

专栏目录