HTTP协议(六)
HTTP报文首部
HTTP协议的请求和响应报文中必定包含HTTP首部。首部内容为客户端和服务器分别处理请求和响应提供所需要的信息。对于客户端用户来说,这些信息中的大部分内容都无需亲自查看。
HTTP请求报文
在请求中,HTTP报文由方法、URI、HTTP版本、HTTP首部字段等部分构成,
HTTP响应报文
在响应中,HTTP报文由HTTP版本、状态码(数字和原因短语)、HTTP首部字段3部分构成。
HTTP首部字段
HTTP首部字段传递重要信息
HTTP首部字段是构成HTTP报文的要素之一。在客户端与服务器之间以HTTP协议进行通信的过程中,无论是请求还是响应都会使用首部字段,他能起到传递额外重要信息的作用。使用首部字段是为了给浏览器和服务器提供报文主体大小、所使用的语言信息、认证信息等内容。
HTTP首部字段结构
HTTP首部字段是由首部字段名和字段值构成的,中间用冒号“:”分割。如下:
首部字段名:字段值
例如,在HTTP首部中以Content-Type这个字段来表示报文主体的对象类型。
Content-Type:text/html
上述的Content-Type是首部字段名,text/html是字段值,字段值可以是多个值,例如
Keep-Alive:timeout=15,max=10;
4种HTTP首部字段类型
通用首部字段
请求报文和响应报文两方都会使用的首部。
请求首部字段
从客户端向服务器端发送请求报文时使用的首部。补充了请求的附加内容、客户端信息、响应内容相关优先级等信息
响应首部字段
从服务器端向客户端返回响应报文时使用的首部。补充了响应的附加内容,也会要求客户端附加额外的内容信息。
实体首部字段
针对请求报文和响应报文的实体部分使用的首部。补充了资源内容更新时间等于实体有关的信息。
通用首部字段:
首部字段名 | 说明 |
---|---|
Cache-Control | 控制缓存的行为 |
Connection | 逐跳首部、连接的管理 |
Date | 创建报文的日期时间 |
Pragma | 报文指令 |
Trailer | 报文末端的首部一览 |
Transfer-Encoding | 指定报文主体的传输编码方式 |
Upgrade | 升级为其他协议 |
Via | 代理服务器的相关信息 |
Warning | 错误通知 |
请求首部字段:
首部字段名 | 说明 |
---|---|
Accept | 用户可代为处理的媒体类型 |
Accept-Charset | 优先的字符集 |
Accept-Encoding | 优先的内容编码 |
Accept-Language | 优先的语言 |
Authorization | Web认证信息 |
Expect | 期待服务器特定行为 |
From | 用户的电子邮箱地址 |
Host | 请求资源所在的服务器 |
If-Match | 比较实体标记 |
If-Modified-Since | 比较资源更新时间 |
If-None-Match | 比较实体标记 |
If-Range | 资源未更新时发送实体Byte的请求范围 |
If-Unmodified-Since | 比较资源的更新时间 |
Max-Forwards | 最大传输逐跳数 |
Proxy-Authorization | 代理服务器要求客户端的认证信息 |
Range | 实体字节的请求范围 |
Referer | 对请求中URI的原始获取方 |
TE | 传输编码的优先级 |
User-Agent | HTTP客户端程序的信息 |
响应首部字段:
首部字段名 | 说明 |
---|---|
Accept-Ranges | 是否接受字节范围请求 |
Age | 推算资源创建经过时间 |
ETag | 资源的匹配信息 |
Location | 令客户端重定向至指定URI |
Proxy-Authenticate | 代理服务器要求客户端的认证信息 |
Retry-After | 对再次发起请求的时机要求 |
Server | HTTP服务器的安装信息 |
Vary | 代理服务器缓存的管理信息 |
WWW-Authenticate | 服务器对客户端的认证信息 |
实体首部字段:
首部字段名 | 说明 |
---|---|
Allow | 资源可支持的HTTP方法 |
Content-Encoding | 实体主体适合的编码方式 |
Content-Language | 实体主体的自然语言 |
Content-Length | 实体主体的大小(单位:字节) |
Content-Location | 替代对应资源的URI |
Content-MD5 | 实体主体的报文摘要 |
Content-Range | 实体主体的位置范围 |
Content-Type | 实体主体的媒体类型 |
Expires | 实体主体过期的日期时间 |
Last-Modified | 资源的最后修改日期时间 |
非HTTP/1.1首部字段
在HTTP协议通信交互中使用到的首部字段,不限于RFC2616中,定义的47中首部字段。还有Cookie,set-Cookie和Content-Disposition等在其他RFC中定义的首部字段。他们的使用频率也很高。
End-to-end首部和Hop-to-hop首部
HTTP首部字段将定义成缓存代理和非缓存代理的行为,分成2种类型。
端到端首部
分在此类别中的首部会转发给请求/响应对应的最终接受目标,且必须保存在由缓存生成的响应中,另外规定它必须被转发。
逐跳首部
分在此类别中的首部只对单词转发有效,会因通过缓存或代理而不再转发。HTTP/1.1和之后的版本,如果要使用hop-by-hop首部,需提供Connection首部字段。
下面列举了HTTP/1.1中逐跳首部字段,除了这8个首部字段外,其他所有字段都属于端到端首部
- Connection
- Keep-Alive
- Proxy-Authenticate
- Proxy-Authorization
- Trailer
- TE
- Transfer-Encoding
- Upgrade
HTTP/1.1通用首部字段
通用首部字段是指,请求报文和响应报文双方都会使用的首部。
Cache-Control
通过指定首部字段Cache-Control的指令,就能操作缓存的工作机制。指令的参数是可选的,多个指令之间通过“,”分隔。首部字段Cache-Control的指令可用于请求及响应时。
Cache-Control:private,max-age=0,no-cache
可以的指令按请求和响应分类如下所示。
缓存请求指令:
指令 | 参数 | 说明 |
---|---|---|
no-cache | 无 | 强制向源服务器再次验证 |
no-store | 无 | 不缓存请求或响应的任何内容 |
max-age=[秒] | 必须 | 响应的最大Age值 |
max-stale(=[秒]) | 可省略 | 接收已过期的响应 |
min=fresh=[秒] | 必须 | 期望在指定时间内的响应仍有效 |
no-transform | 无 | 代理不可更改媒体类型 |
only-if-cache | 无 | 从缓存获取资源 |
cache-extension | - | 新指令标记 |
缓存响应指令:
指令 | 参数 | 说明 |
---|---|---|
public | 无 | 可向任意方提供响应的缓存 |
private | 可省略 | 仅向指定用户返回响应 |
no-cache | 可省略 | 缓存前必须先确认其有效性 |
no-store | 无 | 不缓存请求或响应的任何内容 |
no-transform | 无 | 代理不可改变媒体类型 |
must-revalidate | 无 | 要求中间缓存服务器对缓存的响应有效性再进行确认 |
max-age=[秒] | 必须 | 响应的最大Age值 |
s-maxage=[秒] | 必须 | 公共缓存服务器响应的最大Age值 |
cache-extension | - | 新指令标记 |
表示是否能缓存的指令
- public指令
- Cache-Control:public
当指定使用public指令时,则明确表明其他用户可利用缓存。
- Cache-Control:public
- private指令
- Cache-Control:private
当指定private指令后,响应只以特定的用户作为对象,这与public指令行为相反。
缓存服务器会对该特定用户提供资源缓存的服务,对于其他用户发送过来的请求,代理服务器则不会返回缓存。
- Cache-Control:private
- no-cache指令
- Cache-Control:no-cache
使用no-cache指令的目的是为了防止从缓存中返回过期的资源。客户端发送的请求中如果包含no-cache指令,则表示客户端将不会接受缓存过的响应。于是,“中间”的缓存服务器必须把客户端请求转发给源服务器。
如果服务器返回的响应中包含no-cache指令,那么缓存服务器不能对资源进行缓存。源服务器以后也将不再对缓存服务器请求汇总提出的资源有效性进行确认,且禁止其对响应资源进行缓存操作。 - Cache-Control:no-cache=Location
由服务器返回的响应中,若报文首部字段Cache-Control中对no-cache字段名具体指定参数值,那么客户端在接收到这个被指定参数值的首部字段对应的响应报文后,就不能使用缓存。换言之,无参数值的首部字段可以使用缓存。只能在响应指令中指定该参数。
- Cache-Control:no-cache
控制可执行缓存的对象的指令
- no-store指令
- Cache-Control:no-store
当使用no-store指令时,暗示请求或响应中包含机密信息。因此,该指令规定缓存不能在本地存储请求或响应的任一部分。
- Cache-Control:no-store
指定缓存期限和认证的指令
- s-maxage指令
- Cache-Control:s-maxage=604800(单位:秒)
s-maxage指令的功能和max-age指令的相同,它们的不同点是s-maxage指令只适用于供多为用户适用的公共缓存服务器。也就是说,对于向同一个用户重复返回响应的服务器来说,这个指令没有任何作用。
- Cache-Control:s-maxage=604800(单位:秒)
- max-age指令
- Cache-Control:max-age=604800(单位:秒)
当客户端发送的请求中包含max-age指令时,如果判定缓存资源的缓存时间数值比指定时间的数值更小,那么客户端就接受缓存的资源。另外,当指定max-age值为0,那么缓存服务器通常需要将请求转发给源服务器。
当服务器返回的响应中包含max-age指令时,缓存服务器将不对资源的有效性再做确认,而max-age数值代表资源保存为缓存的最长时间。
应用HTTP/1.1版本的缓存服务器遇到同事存在Expires首部字段的情况时,会优先处理max-age指令,而忽略掉Expires首部字段。而HTTP/1.0版本的缓存服务器的情况却相反。max-age指令会被忽略掉。
- Cache-Control:max-age=604800(单位:秒)
- min-fresh指令
- Cache-Control:min-fresh=60(单位:秒)
min-fresh指令要求缓存服务器返回至少还未过指定时间的缓存资源。比如,当指定main-fresh为60秒后,过了60秒的资源都无法作为响应返回了。
- Cache-Control:min-fresh=60(单位:秒)
- max-stale指令
- Cache-Control:max-stale=3600(单位:秒)
如果使用max-stale可指示缓存资源,即使过期也照常接受。如果指令为指定参数值,那么无论经过多久,客户端都会接受响应;如果指令中指定了具体数值,那么即使过期,只要仍处于max-stale指定的时间内,仍旧被客户端接受。
- Cache-Control:max-stale=3600(单位:秒)
- only-if-cached指令
- Cache-Control:only-if-cached
使用only-if-cached指令表示客户端尽在缓存服务器本地缓存目标,资源的情况下才会要求其返回。换言之,该指令要求缓存服务器不重新加载响应,也不会再次确认资源的有效性。若发生请求缓存服务器的本地缓存无响应,则返回状态码504 Gateway Timeout。
- Cache-Control:only-if-cached
- must-revalidate指令
- Cache-Control:must-revalidate
使用must-revalidate指令,代理会向源服务器再次验证即将返回的响应缓存目前是否仍然有效。若代理无法连通源服务器再次获取有效资源的话,缓存必须给客户端一条504状态码。
- Cache-Control:must-revalidate
- proxy-revalidate指定
- Cache-Control:proxy-revalidate
proxy-revalidate指令要求所有的缓存服务器子啊接收到客户端带有该指令的请求返回响应之前,必须再次验证缓存的有效性。
- Cache-Control:proxy-revalidate
- no-transform指令
- Cache-Control:no-transform
使用no-transform指令规定无论是在请求还是响应中,缓存都不能改变实体主体的媒体类型。这样做可以防止缓存或代理压缩图片等类似操作。
- Cache-Control:no-transform
- cache-extension token
- Cache-Control:private,community=”UCI”
通过cache-extension标记,可以扩展Cache-Control首部字段内的指令。如上例,Cache-Control首部字段本身没有community这个指令,借助extension tokens实现了该指令的添加。如果缓存服务器不能理解community这个新指令,就会直接忽略。因此,extension tokens仅对能理解它的服务器来说是有意义的。
- Cache-Control:private,community=”UCI”
Connection
Connection首部字段具有如下两个作用
- 控制不再转发给代理的首部字段
- 在客户端发送请求和服务器返回响应内,使用Connection首部字段,可控制不在转发给代理的首部字段(即Hop-by-hop首部)
- 管理持久连接
- Connection:close HTTP/1.1版本的默认连接都是持久连接,为此,客户端会在持久连接上连续发送请求。当服务器端想明确断开连接时,则指定Connection首部字段的值为close
- Connection:Keep-Alive HTTP/1.1之前HTTP版本的默认连接都是非持久连接。为此,如果想在旧版本的HTTP协议上维持持久连接,则需要指定Connection首部字段的值为Keep-Alive。
Date
首部字段Date表明创建HTTP报文的日期和时间
Pragma
Pragma是HTTP/1.1之前版本的历史遗留字段,仅作为与HTTP/1.0的向后兼容而定义。规范定义的形式唯一,如下所示:
Pragma:no-cache
该首部字段属于通用的首部字段,但只用在客户端发送的请求中。客户端会要求所有的中间服务器不返回缓存的资源。如果所有的中间服务器都能以HTTP/1.1为基准,那直接采用Cache-Control:no-cache指定缓存的处理方式是最理想的。但是整体掌握全部中间服务器使用的HTTP协议版本确是不现实的,因此发送的请求会同时包含下面两个首部字段。
Cache-Control:no-cache
Pragma:no-cache
Trailer
首部字段Trailer会事先说明在报文主体后记录了哪些首部字段。该首部字段可应用在HTTP/1.1版本分块传输编码时。
Transfer-Encoding
首部字段Transfer-Encoding规定了传输报文主体时采用的编码方式,HTTP/1.1的传输编码方式仅对分块传输编码有效。
Upgrade
首部字段Upgrade用于检测HTTP协议及其他协议是否可以使用更高的版本进行通信,其参数可以用来指定一个完全不同的通信协议。
例如客户端发送请求的请求头为:
GET /index.htm HTTP/1.1
Upgrade: TLS/1.0
Connection: Upgrade
服务器端返回的响应的响应头为:
HTTP/1.1 101 Switching Protocols
Upgrade: TLS/1.0, HTTP/1.1
Connection: Upgrade
上图用例中,首部字段Upgrade指定的值为TLS/1.0.请注意此处两个字段首部字段的对应关系,Connection的值被指定为Upgrade。Upgrade首部字段产生作用的Upgrade对象仅限于客户端和邻接服务器之间,因此,使用首部字段Upgrade时,还需要额外指定Connection:Upgrade。对于附有首部字段Upgrade的请求,服务器可用101 Swiching Protocols状态码作为响应返回。
Via
使用首部字段Via是为了追踪客户端与服务器之间的请求和响应的传输路径,报文经过代理或网关时,会现在首部字段Via中附加该服务器的信息,然后进行转发。首部字段Via不仅用于追踪报文的转发,还可以避免请求回环的发生,所以必须在经过代理时添加该首部字段内容。
Via首部是为了追踪传输路径,所以经常会和TRACE方法一起使用,比如,代理服务器接收到由TRACE方法发送过来的请求(其中Max-Forwards:0)时,代理服务器就不能再转发该请求了。这种情况下,代理服务器将会吱声的信息附加到Via首部后,返回该请求的响应。
Warning
HTTP/1.1的Warning首部是从HTTP/1.0的响应首部演变过来的。该首部通常会告知用户一些与缓存相关的问题的警告。HTTP/1.1中定义了7种警告。警告码对应的警告内容金推荐参考。另外警告码具备扩展性,今后可能增加新的警告码。
警告码 | 警告内容 | 说明 |
---|---|---|
110 | Response is stale(响应已过期) | 代理返回已过期的资源 |
111 | Revalidation failed(再验证失败) | 代理在验证资源有效性时,失败(服务器无法到达等原因) |
112 | Disconnection operation(断开连接操作) | 代理与互联网连接被故意切断 |
113 | Heuristic expiration(试探性过期) | 响应的使用期超过24小时(有效缓存设置时间大于24小时的情况下) |
199 | Miscellaneous warning(杂项警告) | 任意的警告内容 |
214 | Transformation applied(使用了转换) | 代理对内容编码或媒体类型等执行了某些处理时 |
299 | Miscellaneous persistent warning(持久杂项警告) | 任意警告内容 |
请求首部字段
请求首部字段是从客户端往服务器端发送请求报文中所使用的字段,用于补充请求的附加信息、客户端信息、对响应内容相关的优先级等内容。
Accept
- Accept: text/html, application/xhtml+xml, application/xml;q=0.9,/;q=0,8
Accept首部字段可通知服务器,用户代理能够处理的媒体类型及媒体类型的相对优先级。可使用type/subtype这种形式,一次指定多种媒体类型。 - 文本文件
- text/html
- text/plain
- text/css
- application/xhtml+xml
- application/xml
- 图片文件
- image/jpeg
- image/gif
- image/png
- …
- 视频文件
- wideo/mpeg
- video/quicktime
- …
- 应用程序使用的二进制
- application/octet-stream
- application/zip
- …
若想要给显示的媒体类型增加优先级,则使用q=来额外表示权重值,用分号(;)进行分割。权重值q的范围是0-1(可精确到小数点后3位),且1为最大值。不指定权重q值时,默认权重为q=1.0。当服务器提供多种内容时,将会首先返回权重值最高的媒体类型。
Accept-Charset
- Accept-Charset:iso-8859-5,unicode-1-1;q=0.8
Accept-Charset首部字段可用来通知服务器用户代理支持的字符集及字符集相对优先顺序。另外,可一次性指定多种字符集。与首部字段Accept相同的是可用权重q值来表示相对优先级。该首部字段应用于内容协商机制的服务器驱动协商。
Accept-Encoding
- Accept-Encoding:gzip,deflate
Accept-Encoding首部字段用来告知服务器用户代理支持的内容编码及内容编码的优先级顺序。可一次性指定多种内容编码。下面试举几个内容编码的例子。
- gzip
由文件压缩程序gzip生成的编码格式采用Lempel-Ziv算法及32位循环冗余校验 - compress
由UNIX文件压缩程序compress生成的编码格式 - deflate
组合使用zlib格式及由deflate压缩算法生成的编码格式。 - identity
不执行压缩或不会变化的默认编码格式。
- gzip
Accept-Language
- Accept-Language:zh-cn,zh;q=0.7,en-us,en;q=0.3
该首部字段是用来告知服务器用户代理能够处理的自然语言集,以及自然语言集的相对优先级。可一次指定多种自然语言集。
Authorization
该首部字段用来告知服务器用户代理的认证信息。通常,想要通过服务器认证的用户代理会在接受到返回的401状态码响应后,
把首部字段Authorization加入到请求中,
Expect
客户端使用首部字段Expect来告知服务器,期望出现的某种特定行为,因服务器无法理解客户端的期望做出回应而发生错误时,会返回状态码417
From
该首部字段用来告知服务器使用用户代理的用户的电子邮件地址。
Host
该首部字段会告知服务器,请求的资源所处的互联网主机名和端口号。Host首部字段在HTTP/1.1规范内是唯一一个必须被包含在请求内的首部字段。首部字段Host和单台服务器分配多个域名的虚拟主机的工作机制有很密切的联系,这是首部字段Host必须存在的意义。
if-Match
形如if-XXX这种样式的请求首部字段,都可称为条件请求服务器接收到附带的请求后,值判断指定的条件为真时,才会执行请求。该首部字段属于附带条件之一,它会告知服务器匹配资源所用的实体标记(ETag)值。这时的服务器无法使用弱ETag值。服务器会对于if-Match的字段值和资源的ETag值,仅当两值一致时,才会执行请求。反之,则返回状态码为412的响应。还可以用*来指定if-Match的字段值,针对这种情况,服务器将会忽略ETag的值,只要资源存在就处理请求。
if-Modified-Since
该首部属于附带条件之一,它会告知服务器若if-Modified-Since字段值早于资源的更新时间,则希望能处理该请求。而在指定if-Modified-Since字段值的日期时间后,如果请求的资源都没有过更新,则返回状态码304Not Modified响应。if-Modified-Since用于确认代理和客户端拥有的本地资源的有效性。获取资源更新的日期时间,可通过确认首部字段Last-Modified来确定。
if-None-Match
只要在if-None-Match的字段值与ETag值不一致时,可处理该请求。与if-Match首部字段作用相反。在GET,HEAD方法中可以通过该字段去获取最新的资源。
if-Range
该首部字段属于附带条件之一。它告知服务器若指定的if-Range字段值和请求资源的ETag值或时间相一致时,则作为范围请求处理。如果不使用if-Range,而单独使用Range,服务器会暂且以412作为响应状态码,其目的是催促服务器再次发送请求,这样一来,比if-Range要花费两倍的时间。
if-Unmodified-Since
该首部字段与首部字段if-Modified-Since作用相反。它的作用是告知服务器,指定的请求资源只有在字段之内指定的七日时间之后,未发生更新情况下,才能处理请求。如果在指定时间之后发生了更新,则以状态码412作为响应返回。
Max-Forwards
- Max-Forwards:10
通过TRACE方法或者OPTIONS方法,发送包含首部字段Max-Forwards的请求时,该字段以十进制整数形式指定可经过的服务器最大数目。服务器在往下一个服务器转发请求之前,Max-Forwards的值减1后从新复制。当服务器接收到Max-Forwards值为0的请求时,则不再进行转发么事直接返回响应。如果HTTP协议通信时,请求可能会经过代理等多台服务器。途中,如果代理服务器由于某些原因导致请求转发失败,客户端也就等不到服务器返回的响应了。对此,我们无从可知。可以灵活使用首部字段Max-Forwards。针对以上问题产生的原因展开调查,由于当Max-Forwards字段值为0时,服务器就会立刻返回响应,由此我们至少可以对以那台服务器为终点的传输路径的通信状况有所把握。
Proxy-Authorization
- Proxy-Authorization:Basic dGlwOjkpNLAGfFY5
接收到从代理服务器发来的认证质询时,客户端会发送包含首部字段Proxy-Authorization的请求,已告知服务器认真所需要的信息。这个行为是与客户端和服务器之间的HTTP访问认证相类似的,不同之处在于,认证行为发生在客户端与代理之间。客户端与服务器之间的认证,使用首部字段Authorization可起到相同的作用。
Range
- Range:bytes=5001-10000
对于只需要获取部分资源的范围请求,包含首部字段Range即可告知服务器资源的指定范围。接收到附带的Range首部字段请求的服务器,会在处理请求之后返回状态码206Partial Content的响应。无法处理该范围请求时,则会返回状态码200的响应以及全部资源。
Referer
- Referer:http://www.hackr.jp/index.html
首部字段Referer会告知服务器请求的原始资源的URI。客户端一般都会发送Referer首部字段给服务器。但当直接在浏览器的地址栏输入URI,或处于安全性考虑时,也可以发送该首部字段。因为原始资源的URI中查询字符串可能含有ID和密码等保密信息,要是写进Referer转发给其他服务器,则有可能导致保密信息的泄露。
TE
- TE:gzip,deflate;q=0.5
首部字段TE会告知服务器客户端能够处理响应的传输编码方式以及相对优先级。它和首部字段Accept-Encoding的功能很相象,但是用于传输编码。首部字段TE除指定传输编码之外,还可以指定伴随trailer字段的分块传输编码方式。应用后者时,只需要trailers赋值给该字段值。
User-Agent
- User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:13.0) Gecko/ 20100101 Firefox/13.0.1
首部字段User-Agent将创建请求的浏览器和用户代理名称等信息传达给服务器。当网络爬虫发起请求时,有可能会在字段内添加爬虫作者的电子邮件地址。此外,如果请求经过代理,那么中间也很可能被添加上代理服务器的名称