http
协议基础
HTTP
(
HyperText Transfer Protocol
)是超文本传输协议的缩写,它用于传送
WWW
方式的数据,关于
HTTP
协议的详细内容请参考
RFC2616
。
HTTP
协议采用了请求
/
响应模型。客户端向服务器发送一个请求,请求头包含请求的方法、
URI
、协议版本、以及包含请求修饰符、客户信息和内容的类似于
MIME
的消息结构。服务器以一个状态行作为响应,相应的内容包括消息协议的版本,成功或者错误编码加上包含服务器信息、实体元信息以及可能的实体内容。
两种消息:
通常
HTTP
消息包括客户机向服务器的请求消息和服务器向客户机的响应消息。
这两种类型的消息由一个起始行,一个或者多个头域,一个只是头域结束的空行和可选的消息体组成。
HTTP
协议结构
HTTP
报文由从客户机到服务器的请求和从服务器到客户机的响应构成。
请求报文格式如下:
请求行
-
通用信息头
-
请求头
-
实体头
-
报文主体
请求行以方法字段开始,后面分别是
URL
字段和
HTTP
协议版本字段,并以
CRLF
结尾。
SP
是分隔符。除了在最后的
CRLF
序列中
CF
和
LF
是必需的之外,其他都可以不要。有关通用信息头,请求头和实体头方面的具体内容可以参照相关文件。
应报文格式如下:
状态行
-
通用信息头
-
响应头
-
实体头
-
报文主体
状态码元由
3
位数字组成,表示请求是否被理解或被满足。原因分析是对原文的状态码作简短的描述,状态码用来支持自动操作,而原因分析用来供用户使用。客户机无需用来检查或显示语法。有关通用信息头,响应头和实体头方面的具体内容可以参照相关文件。
HTTP
的头域包括
l
通用头
l
请求头
l
响应头
l
实体头
四个部分。每个头域由一个域名,冒号(
:
)和域值三部分组成。域名是大小写无关的,域值前可以添加任何数量的空格符,头域可以被扩展为多行,在每行开始处,使用至少一个空格或制表符。
通用头域
通用头域包含请求和响应消息都支持的头域,通用头域包含
Cache-Control
、
Connection
、
Date
、
Pragma
、
Transfer-Encoding
、
Upgrade
、
Via
。对通用头域的扩展要求通讯双方都支持此扩展,如果存在不支持的通用头域,一般将会作为实体头域处理。下面简单介绍几个在
UPnP
消息中使用的通用头域。
Cache-Control
头域
Cache-Control
指定请求和响应遵循的缓存机制。在请求消息或响应消息中设置
Cache-Control
并不会修改另一个消息处理过程中的缓存处理过程。请求时的缓存指令包括
no-cache
、
no-store
、
max-age
、
max-stale
、
min-fresh
、
only-if-cached
,响应消息中的指令包括
public
、
private
、
no-cache
、
no-store
、
no-transform
、
must-revalidate
、
proxy-revalidate
、
max-age
。各个消息中的指令含义如下:
Public
指示响应可被任何缓存区缓存。
Private
指示对于单个用户的整个或部分响应消息,不能被共享缓存处理。这允许服务器仅仅描述当用户的部分响应消息,此响应消息对于其他用户的请求无效。
no-cache
指示请求或响应消息不能缓存
no-store
用于防止重要的信息被无意的发布。在请求消息中发送将使得请求和响应消息都不使用缓存。
max-age
指示客户机可以接收生存期不大于指定时间(以秒为单位)的响应。
min-fresh
指示客户机可以接收响应时间小于当前时间加上指定时间的响应。
max-stale
指示客户机可以接收超出超时期间的响应消息。如果指定
max-stale
消息的值,那么客户机可以接收超出超时期指定值之内的响应消息。
Date
头域
Date
头域表示消息发送的时间,时间的描述格式由
rfc822
定义。例如,
Date:Mon,31Dec200104:25:57GMT
。
Date
描述的时间表示世界标准时,换算成本地时间,需要知道用户所在的时区。
Pragma
头域
Pragma
头域用来包含实现特定的指令,最常用的是
Pragma:no-cache
。在
HTTP/1.1
协议中,它的含义和
Cache-Control:no-cache
相同。
请求消息
请求消息的第一行为下面的格式:
MethodSPRequest-URISPHTTP-VersionCRLF
Method
表示对于
Request-URI
完成的方法,这个字段是大小写敏感的,包括
OPTIONS
、GET
、HEAD
、POST
、PUT
、DELETE
、TRACE
。方法
GET
和
HEAD
应该被所有的通用
WEB
服务器支持,其他所有方法的实现是可选的。
GET
方法取回由
Request-URI
标识的信息。
HEAD
方法也是取回由
Request-URI
标识的信息,只是可以在响应时,不返回消息体。
POST
方法可以请求服务器接收包含在请求中的实体信息,可以用于提交表单,向新闻组、
BBS
、邮件群组和数据库发送消息。
l
SP
表示空格。
l
Request-URI
遵循
URI
格式,在此字段为星号(
*
)时,说明请求并不用于某个特定的资源地址,而是用于服务器本身。
l
HTTP-Version
表示支持的
HTTP
版本,例如为
HTTP/1.1
。
l
CRLF
表示换行回车符。
请求头域
允许客户端向服务器传递关于请求或者关于客户机的附加信息。请求头域可能包含下列字段
Accept
、
Accept-Charset
、
Accept-Encoding
、
Accept-Language
、
Authorization
、
From
、
Host
、
If-Modified-Since
、
If-Match
、
If-None-Match
、
If-Range
、
If-Range
、
If-Unmodified-Since
、
Max-Forwards
、
Proxy-Authorization
、
Range
、
Referer
、
User-Agent
。对请求头域的扩展要求通讯双方都支持,如果存在不支持的请求头域,一般将会作为实体头域处理。
典型的请求消息:
GET [url]http://download.microtool.de:80/somedata.exe[/url]
Host:download.microtool.de
Accept:*/*
Pragma:no-cache
Cache-Control:no-cache
Referer:[url]http://download.microtool.de/[/url]
User-Agent:Mozilla/4.04[en](Win95;I;Nav)
Range:bytes=554554-
上例第一行表示
HTTP
客户端(可能是浏览器、下载程序)通过
GET
方法获得指定
URL
下的文件。棕色的部分表示请求头域的信息,绿色的部分表示通用头部分。
请求头解释如下:
Host
头域
Host
头域指定请求资源的
Intenet
主机和端口号,必须表示请求
url
的原始服务器或网关的位置。
HTTP/1.1
请求必须包含主机头域,否则系统会以
400
状态码返回。
Referer
头域
Referer
头域允许客户端指定请求
uri
的源资源地址,这可以允许服务器生成回退链表,可用来登陆、优化
cache
等。他也允许废除的或错误的连接由于维护的目的被追踪。如果请求的
uri
没有自己的
uri
地址,
Referer
不能被发送。如果指定的是部分
uri
地址,则此地址应该是一个相对地址。
Range
头域
Range
头域可以请求实体的一个或者多个子范围。例如,
表示头
500
个字节:
bytes=0-499
表示第二个
500
字节:
bytes=500-999
表示最后
500
个字节:
bytes=-500
表示
500
字节以后的范围:
bytes=500-
第一个和最后一个字节:
bytes=0-0,-1
同时指定几个范围:
bytes=500-600,601-999
但是服务器可以忽略此请求头,如果无条件
GET
包含
Range
请求头,响应会以状态码
206
(
PartialContent
)返回而不是以
200
(
OK
)。
User-Agent
头域
User-Agent
头域的内容包含发出请求的用户信息。
响应消息
响应消息的第一行为下面的格式:
HTTP-VersionSPStatus-CodeSPReason-PhraseCRLF
HTTP-Version
表示支持的
HTTP
版本,例如为
HTTP/1.1
。
Status-Code
是一个三个数字的结果代码,主要用于机器自动识别。第一个数字定义响应的类别,后两个数字没有分类的作用。第一个数字可能取
5
个不同的值:
l
1xx:
信息响应类,表示接收到请求并且继续处理
l
2xx:
处理成功响应类,表示动作被成功接收、理解和接受
l
3xx:
重定向响应类,为了完成指定的动作,必须接受进一步处理
l
4xx:
客户端错误,客户请求包含语法错误或者是不能正确执行
l
5xx:
服务端错误,服务器不能正确执行一个正确的请求
Reason-Phrase
给
Status-Code
提供一个简单的文本描述。主要用于帮助用户理解。
响应头域允许服务器传递不能放在状态行的附加信息,这些域主要描述服务器的信息和
Request-URI
进一步的信息。响应头域包含
Age
、
Location
、
Proxy-Authenticate
、
Public
、
Retry-After
、
Server
、
Vary
、
Warning
、
WWW-Authenticate
。对响应头域的扩展要求通讯双方都支持,如果存在不支持的响应头域,一般将会作为实体头域处理。
典型的响应消息:
HTTP/1.0 200 OK
Date:Mon,31Dec200104:25:57GMT
Server:Apache/1.3.14(Unix)
Content-type:text/html
Last-modified:Tue,17Apr200106:46:28GMT
Etag:"a030f020ac7c01:1e9f"
Content-length:39725426
Content-range:bytes554554-40279979/40279980
上例第一行表示
HTTP
服务端响应一个
GET
方法。棕色的部分表示响应头域的信息,绿色的部分表示通用头部分,红色的部分表示实体头域的信息。
Location
响应头
Location
响应头用于重定向接收者到一个新
URI
地址。
Server
响应头
Server
响应头包含处理请求的原始服务器的软件信息。此域能包含多个产品标识和注释,产品标识一般按照重要性排序。
实体域
请求消息和响应消息都可以包含实体信息,实体信息一般由实体头域和实体组成。实体头域包含关于实体的原信息,实体头包括
Allow
、
Content-Base
、
Content-Encoding
、
Content-Language
、
Content-Length
、
Content-Location
、
Content-MD5
、
Content-Range
、
Content-Type
、
Etag
、
Expires
、
Last-Modified
、
extension-header
。
extension-header
允许客户端定义新的实体头,但是这些域可能无法被接受方识别。
实体可以是一个经过编码的字节流,它的编码方式由
Content-Encoding
或
Content-Type
定义,它的长度由
Content-Length
或
Content-Range
定义。
Content-Type
实体头
Content-Type
实体头用于向接收方指示实体的介质类型,指定
HEAD
方法送到接收方的实体介质类型,或
GET
方法发送的请求介质类型
Content-Range
实体头
Content-Range
实体头用于指定整个实体中的一部分的插入位置,他也指示了整个实体的长度。在服务器向客户返回一个部分响应,它必须描述响应覆盖的范围和整个实体长度。一般格式:
Content-Range:bytes-unitSPfirst-byte-pos-last-byte-pos/entity-legth
例如,传送头
500
个字节次字段的形式:
Content-Range:bytes0-499/1234
如果一个
http
消息包含此节(例如,对范围请求的响应或对一系列范围的重叠请求),
Content-Range
表示传送的范围,
Content-Length
表示实际传送的字节数。
Last-modified
实体头
Last-modified
实体头指定服务器上保存内容的最后修订时间。
例如,传送头
500
个字节次字段的形式:
Content-Range:bytes0-499/1234
如果一个
http
消息包含此节(例如,对范围请求的响应或对一系列范围的重叠请求),
Content-Range
表示传送的范围,
Content-Length
表示实际传送的字节数。