Python爬虫——HTTP协议详解

最新推荐文章于 2024-07-21 14:30:53 发布

Mr. Wanderer

最新推荐文章于 2024-07-21 14:30:53 发布

阅读量720

点赞数 1

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/Mr_Wanderer/article/details/114478937

版权

2 篇文章

订阅专栏

url：定义网络资源的标识

URL格式 http:// [host] [:port] [path]

结构：协议://域名/路径1/路径2/路径3/…/路径n/?参数名1=参数值1&参数名2=参数值2…

协议：http或https
域名：www.spbeen.com spbeem.com 127.0.0.1:8000
路径：web服务器做的，比如https://blog.csdn.net/mr_wanderer/category_10858163.html中，t/mr_wanderer/category_10858163.html就是路径
?：必须是英文符号的?，标识符号。前面为url组成部分，后面为url参数部分。
&：分隔携带的多个参数。

请求类型	操作
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获得该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源

PATCH和PUT的区别：PATCH可以节省网络带宽。
假如用户修改了UserName，其他（UserID、UserInfo等）不变：

GET和POST请求的区别：

GET请求时，请求主体的容量有限制，很短，所以GET请求通常不设置请求主体。
POST请求时，请求主体的容量很大，所以POST请求通常用于提交数据。
GET请求也可携带参数：
不携带参数的url：http://www.spbeen.com/tool/request_info/
携带参数的url：http://www.spbeen.com/tool/request_info/?page=4&pageSize=60&userid=asdfczd

常见场景说明：

在这里插入图片描述
请求行内容：请求方法、请求网址、协议版本

请求体（报文体）：通常只在POST请求时才有

请求头（报文头）内容：{“头部字段名”:”值”}*N

爬虫常用字段
【网址来源】Referer: https://blog.csdn.net/mr_wanderer/category_10858163.html
【用户代理信息】User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36
有时很关键的字段
【请求主题的内容类型】Content-Type: text/plain;charset=UTF-8 通常用于POST提交数据时，需要申明请求主体的数据类型
【常用与登录状态下的身份标识】Cookie: uuid_tt_dd=10_30832384060-1589545271024-303040;
用处不大的请求头字段信息
【接收的内容】Accept: application/json, text/javascript, /; q=0.01
【接收的编码】Accept-Encoding: gzip, deflate, br
【接收的语言】Accept-Language: zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2

响应头字段	说明
Content-Encoding	文档的编码（Encode）方法。只有在解码之后才可以得到Content-Type头指定的内容类型。
Content-Length	表示内容长度。
Content-Type	表示后面的文档属于什么MIME类型。默认为text/plain，但通常需要显式地指定为text/html。
Location	表示客户应当到哪里去提取文档。Location通常不是直接设置的，而是通过HttpServietResponse的sendRedirect方法，该方法同时设置状态码为302.
Server	服务器名字。Serviet一般不设置这个值，而是由Web服务器自己设置。
Set-Cookie	设置和页面关联的Cookie。Serviet不应使用response setHeader(“Set-Cookie”,…)，而是应使用HttpServietResponse提供的专用方法addCookie。

HTTP协议中的一种规定，绝大部分站支持HTTP响应状态码规定，但也有极少部分不支持。

【】200系列：成功

【】300系列：重定向

301 永久性转移（301错误主要是域名更换后，搜索引擎还在使用你原有的域名地址访问你的网站，如果搜索引擎爬取的时候得到的是一个301错误，那么搜索引擎就知道服务器已经更换了域名，下次就会使用新域名来索引网站。当然，服务器要告诉搜索引擎新的域名是什么。）
302 临时性转移（意思就是你访问网址a，但是因为服务端的拦截器或者其他代码处理，会被重定向到网址b。）
304 没有更改（如果客户端发送了一个带条件的GET 请求且该请求已被允许，而文档的内容（自上次访问以来或者根据请求的条件）并没有改变，则服务器应当返回304状态码。简单的表达就是：服务端已经执行了GET，但文件未变化。）

【】400系列：失败

【】500系列：服务器错误

500 服务器错误（服务器遇到了一个未曾预料的状况，导致了它无法完成对请求的处理。一般来说，这个问题都会在服务器的程序码出错时出现。）
502 网关错误（作为网关或者代理工作的服务器尝试执行请求时，从上游服务器接收到无效的响应。）
503 服务器错误（由于临时的服务器维护或者过载，服务器当前无法处理请求。通常，这个是暂时状态，一段时间会恢复。）
504 网关超时（作为网关或者代理工作的服务器尝试执行请求时，未能及时从上游服务器（URI标识出的服务器，例如HTTP、FTP、LDAP）或者辅助服务器（例如DNS）收到响应。）