报文结构
HTTP是纯文本协议,从头到尾都是ASCII码文本,由三部分组成:
- 起始行(start line):描述请求或相应的基本信息
- 头部消息集合(header):使用key-value形式更详细的说明报文
- 消息正文(entity):实际传输的数据(不一定是文字也可能是图片视频)
前两者合称请求头或者响应头,消息正文也叫实体(body)。其中header是必须的,body则不是,另外header和body中间必须要有一个空行CRLF。
请求行
简要地描述了客户端是想要怎么操作服务端的资源的,由三部分组成:
- 请求方法,GET还是POST
- 请求目标,URI,标记了要操作的资源
- 版本号,具体用的哪个版本HTTP
状态行
也就是服务器端发回的起始行,也是三部分构成:
- 版本号:HTTP版本
- 状态码:三位数,表示处理结果,比如200是成功,500是服务器错误等
- 原因:对状态码的解释
头部字段
请求行或状态行再加上头部字段集合就构成了 HTTP 报文里完整的请求头或响应头。头部字段是 key-value 的形式,key 和 value 之间用“:”分隔,最后用 CRLF 换行表示字段结束。比如在“Host: 127.0.0.1”这一行里 key 就是“Host”,value 就是“127.0.0.1”。key是不能有空格后者下划线的,并且大小写不敏感。
常用头字段
Host:是通用字段,并且必须的,告诉服务器这个请求要由哪个主机来处理。
User-Agent:是请求字段,告诉服务器我发起请求的客户端是啥,写爬虫的经常看到这个,一般是什么safari、mozilla啥的
Date:通用字段,通常是响应头,代表http报文创建时间
Server:响应字段,告诉客户端正在提供服务的软件名和版本号,但不是必须的,因为可能被反过来攻击
Content-Length:实体字段,表示body的长度,方便直接接收。