Http 协议
HTTP 协议(HyperText Transfer Protocol,超文本传输协议)是因特网上应用最为广泛的一种 网络传输协议,所有的 WWW 文件都必须遵守这个标准。HTTP 是一个基于 TCP/IP 通信协议 来传递数据(HTML 文件, 图片文件, 查询结果等)。
HTTP 简介
HTTP 协 议 是 Hyper Text Transfer Protocol (超文本传输协议)的缩写 , 是用于从万维网
(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。HTTP 是一个基于
TCP/IP 通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。
HTTP 工作原理
HTTP 协议工作于客户端-服务端架构上。浏览器作为 HTTP 客户端通过 URL 向 HTTP 服务端 即 WEB 服务器发送所有请求。
Web 服务器有:Apache 服务器,IIS 服务器(Internet Information Services)等。
Web 服务器根据接收到的请求后,向客户端发送响应信息。
HTTP 默认端口号为 80,但是你也可以改为 8080 或者其他端口。
HTTP 三点注意事项:
HTTP 是无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的 请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。
HTTP 是媒体独立的:这意味着,只要客户端和服务器知道如何处理的数据内容,任何 类型的数据都可以通过 HTTP 发送。客户端以及服务器指定使用适合的 MIME-type 内容 类型。
HTTP 是无状态:HTTP 协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。 缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接 传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。
以下图表展示了 HTTP 协议通信流程:
HTTP 消息结构
HTTP 是基于客户端/服务端(C/S)的架构模型,通过一个可靠的链接来交换信息,是一个无 状态的请求/响应协议。
一个 HTTP"客户端"是一个应用程序(Web 浏览器或其他任何客户端),通过连接到服务器达 到向服务器发送一个或多个 HTTP 的请求的目的。
一个 HTTP"服务器"同样也是一个应用程序(通常是一个 Web 服务,如 Apache Web 服务器 或 IIS 服务器等),通过接收客户端的请求并向客户端发送 HTTP 响应数据。
HTTP 使用统一资源标识符(Uniform Resource Identifiers, URI)来传输数据和建立连接。 一 旦 建 立 连 接 后 , 数 据 消 息 就 通 过 类 似 Internet 邮 件 所 使 用 的 格 式 [RFC5322] 和多用途 Internet 邮件扩展(MIME)[RFC2045]来传送。
客户端请求消息
客户端发送一个 HTTP 请求到服务器的请求消息包括以下格式:请求行(request line)、请求 头部(header)、空行和请求数据四个部分组成,下图给出了请求报文的一般格式。
http 请求信息如下:
POST /index.html HTTP/1.1 //请求方法 url 协议/版本号
Host: localhost //主机地址
User-Agent: Mozilla/5.0 (Windows NT 5.1; rv:10.0.2) Gecko/20100101 Firefox/10.0.2
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8
Accept-Language: zh-cn,zh;q=0.5
Accept-Encoding: gzip, deflate
Connection: keep-alive
Referer: http://localhost/ Content-Length:25
Content-Type:application/x-www-form-urlencoded
服务器响应消息
HTTP 响应也由四个部分组成,分别是:状态行、消息报头、空行和响应正文。
下面实例是一点典型的使用 GET 来传递数据的实例: 客户端请求:
GET /hello.txt HTTP/1.1
User-Agent: curl/7.16.3 libcurl/7.16.3 OpenSSL/0.9.7l zlib/1.2.3
Host: www.example.com
Accept-Language: en, mi
服务端响应:
HTTP/1.1 200 OK
Date: Mon, 27 Jul 2009 12:28:53 GMT Server: Apache
Last-Modified: Wed, 22 Jul 2009 19:15:56 GMT ETag: “34aa387-d-1568eb00”
Accept-Ranges: bytes
Content-Length: 51
Vary: Accept-Encoding
Content-Type: text/plain
输出结果:
Hello World! My payload includes a trailing CRLF.
HTTP 请求方法
根据 HTTP 标准,HTTP 请求可以使用多种请求方法。
HTTP1.0 定义了三种请求方法: GET, POST 和 HEAD 方法。
HTTP1.1 新增了六种请求方法:OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法。
序号 方法 描述
1 GET 请求指定的页面信息,并返回实体主体。
2 HEAD 类似于 GET 请求,只不过返回的响应中没有具体的内容,用于获取报头
3 POST 向指定资源提交数据进行处理请求(例如提交表单或者上传件)。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改。
4 PUT 从客户端向服务器传送的数据取代指定的文档的内容。
5 DELETE 请求服务器删除指定的页面。
6 CONNECTS HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。
7 OPTION允许客户端查看服务器的性能。
8 TRACE 回显服务器收到的请求,主要用于测试或诊断。
9 PATCH 是对 PUT 方法的补充,用来对已知资源进行局部更新 。
HTTP 响应头信息
HTTP 请求头提供了关于请求,响应或者其他的发送实体的信息。 在本章节中我们将具体来介绍 HTTP 响应头信息。
应答头 说明
Allow 服务器支持哪些请求方法(如 GET、POST 等)。
Content-文档的编码(Encode)方法。只有在解码之后才可以得到 Content-Type 头指Encoding定的内容类型。利用 gzip 压缩文档能够显著地减少 HTML 文档的下载时间。Java 的 GZIPOutputStream 可以很方便地进行 gzip 压缩,但只有 Unix 上的 Netscape 和 Windows 上的 IE 4、IE 5 才支持它。因此,Servlet 应该通过查看Accept-Encoding 头(即 request.getHeader(“Accept-Encoding”))检查浏览器是否支持 gzip,为支持 gzip 的浏览器返回经 gzip 压缩的 HTML 页面,为其他浏览器返回普通页面。
Content-Length表示内容长度。只有当浏览器使用持久 HTTP 连接时才需要这个数据。如果你想要利用持久连接的优势,可以把输出文档写入 ByteArrayOutputStream,完成后查看其大小,然后把该值放入 Content-Length 头,最后通过 byteArrayStream.writeTo(response.getOutputStream()发送内容。
Content-Type
表示后面的文档属于什么 MIME 类型。Servlet 默认为 text/plain,但通常需要显式地指定为 text/html。由于经常要设置 Content-Type,因此 HttpServletRes
ponse 提供了一个专用的方法 setContentType。
Date 当前的 GMT 时间。你可以用 setDateHeader 来设置这个头以避免转换时间格
式的麻烦。
Expires 应该在什么时候认为文档已经过期,从而不再缓存它?
Last-
文档的最后改动时间。客户可以通过 If-Modified-Since 请求头提供一个日期,
Modified
该请求将被视为一个条件 GET,只有改动时间迟于指定时间的文档才会返回,
否则返回一个 304(Not Modified)状态。Last-Modified 也可用 setDateHead
er 方法来设置。
Location 表示客户应当到哪里去提取文档。Location 通常不是直接设置的,而是通过 Ht
tpServletResponse 的 sendRedirect 方法,该方法同时设置状态代码为 302。
Refresh 表示浏览器应该在多少时间之后刷新文档,以秒计。除了刷新当前文档之外,
你还可以通过 setHeader(“Refresh”, “5; URL=http://host/path”)让浏览器读取
指定的页面。
注意这种功能通常是通过设置 HTML 页面 HEAD 区的<META HTTP-EQUIV
=“Refresh” CONTENT="5;URL=http://host/path">实现,这是因为,自动刷
新或重定向对于那些不能使用 CGI 或 Servlet 的 HTML 编写者十分重要。但
是,对于 Servlet 来说,直接设置 Refresh 头更加方便。
注意 Refresh 的意义是"N 秒之后刷新本页面或访问指定页面",而不是"每隔 N
秒刷新本页面或访问指定页面"。因此,连续刷新要求每次都发送一个 Refresh
头,而发送 204 状态代码则可以阻止浏览器继续刷新,不管是使用 Refresh 头
还是<META HTTP-EQUIV=“Refresh” …>。
注意 Refresh 头不属于 HTTP 1.1 正式规范的一部分,而是一个扩展,但 Nets
cape 和 IE 都支持它。
Server 服务器名字。Servlet 一般不设置这个值,而是由 Web 服务器自己设置。
Set-Cookie 设置和页面关联的 Cookie。Servlet 不应使用 response.setHeader("Set-Cooki
e", …),而是应使用 HttpServletResponse 提供的专用方法 addCookie。参见
下文有关 Cookie 设置的讨论。
WWW-
客户应该在 Authorization 头中提供什么类型的授权信息?在包含 401(Unaut
Authenticate
horized)状态行的应答中这个头是必需的。例如,response.setHeader("WW
W-Authenticate", “BASIC realm=\“executives\””)。
注意 Servlet 一般不进行这方面的处理,而是让 Web 服务器的专门机制来控制
受密码保护页面的访问(例如.htaccess)。
HTTP 状态码
当浏览者访问一个网页时,浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并 显示网页前,此网页所在的服务器会返回一个包含 HTTP 状态码的信息头(server header) 用以响应浏览器的请求。
HTTP 状态码的英文为 HTTP Status Code。 下面是常见的 HTTP 状态码:
200 - 请求成功
301 - 资源(网页等)被永久转移到其它 URL
404 - 请求的资源(网页等)不存在
500 - 内部服务器错误
HTTP 状态码分类
HTTP 状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字 没有分类的作用。HTTP 状态码共分为 5 种类型:
HTTP 状态码分类
分类 分类描述
1** 信息,服务器收到请求,需要请求者继续执行操作
2** 成功,操作被成功接收并处理
3** 重定向,需要进一步的操作以完成请求
4** 客户端错误,请求包含语法错误或无法完成请求
5** 服务器错误,服务器在处理请求的过程中发生了错误
HTTP 状态码列表:
状态 码 状态码英文名称 中文描述
100
Continue
继续。客户端应继续其请求
101
Switching Protocols
切换协议。服务器根据客户端的请求切换协议。只能切换到 更高级的协议,例如,切换到 HTTP 的新版本协议
200 OK 请求成功。一般用于 GET 与 POST 请求
201 Created 已创建。成功请求并创建了新的资源
202 Accepted 已接受。已经接受请求,但未处理完成
203 Non-Authoritative
Information
非授权信息。请求成功。但返回的 meta 信息不在原始的服务
器,而是一个副本
204 No Content 无内容。服务器成功处理,但未返回内容。在未更新网页的
情况下,可确保浏览器继续显示当前文档
205 Reset Content 重置内容。服务器处理成功,用户终端(例如:浏览器)应
重置文档视图。可通过此返回码清除浏览器的表单域
206 Partial Content 部分内容。服务器成功处理了部分 GET 请求
300 Multiple Choices 多种选择。请求的资源可包括多个位置,相应可返回一个资
源特征与地址的列表用于用户终端(例如:浏览器)选择
301 Moved Permanently 永久移动。请求的资源已被永久的移动到新 URI,返回信息
会包括新的 URI,浏览器会自动定向到新 URI。今后任何新的
请求都应使用新的 URI 代替
302 Found 临时移动。与 301 类似。但资源只是临时被移动。客户端应
继续使用原有 URI
303 See Other 查看其它地址。与 301 类似。使用 GET 和 POST 请求查看
304 Not Modified 未修改。所请求的资源未修改,服务器返回此状态码时,不
会返回任何资源。客户端通常会缓存访问过的资源,通过提
供一个头信息指出客户端希望只返回在指定日期之后修改
的资源
305 Use Proxy 使用代理。所请求的资源必须通过代理访问
306 Unused 已经被废弃的 HTTP 状态码
307 Temporary Redirect 临时重定向。与 302 类似。使用 GET 请求重定向
400 Bad Request 客户端请求的语法错误,服务器无法理解
401 Unauthorized 请求要求用户的身份认证
402 Payment Required 保留,将来使用
403 Forbidden 服务器理解请求客户端的请求,但是拒绝执行此请求
404 Not Found 服务器无法根据客户端的请求找到资源(网页)。通过此代
码,网站设计人员可设置"您所请求的资源无法找到"的个性
页面
405 Method Not Allowed 客户端请求中的方法被禁止
406 Not Acceptable 服务器无法根据客户端请求的内容特性完成请求
407 Proxy
请求要求代理的身份认证,与 401 类似,但请求者应当使用
Authentication
代理进行授权
Required
408 Request Time-out 服务器等待客户端发送的请求时间过长,超时
409 Conflict 服务器完成客户端的 PUT 请求时可能返回此代码,服务器
处理请求时发生了冲突
410 Gone 客户端请求的资源已经不存在。410 不同于 404,如果资源以
前有现在被永久删除了可使用 410 代码,网站设计人员可通 过 301 代码指定资源的新位置
411 Length Required 服务器无法处理客户端发送的不带 Content-Length 的请求
信息
412 Precondition Failed 客户端请求信息的先决条件错误
413 Request Entity Too
由于请求的实体过大,服务器无法处理,因此拒绝请求。为
Large
防止客户端的连续请求,服务器可能会关闭连接。如果只是
服务器暂时无法处理,则会包含一个 Retry-After 的响应信
息
414 Request-URI Too
Large
请求的 URI 过长(URI 通常为网址),服务器无法处理
415 Unsupported Media
服务器无法处理请求附带的媒体格式
Type
416 Requested range not
客户端请求的范围无效
satisfiable
417 Expectation Failed 服务器无法满足 Expect 的请求头信息
500 Internal Server
服务器内部错误,无法完成请求
Error
501 Not Implemented 服务器不支持请求的功能,无法完成请求
502 Bad Gateway 作为网关或者代理工作的服务器尝试执行请求时,从远程服
务器接收到了一个无效的响应
503 Service Unavailable 由于超载或系统维护,服务器暂时的无法处理客户端的请
求。延时的长度可包含在服务器的 Retry-After 头信息中
504 Gateway Time-out 充当网关或代理的服务器,未及时从远端服务器获取请求
505 HTTP Version not
supported
服务器不支持请求的 HTTP 协议的版本,无法完成处理
HTTP content-type
Content-Type,内容类型,一般是指网页中存在的 Content-Type,用于定义网络文件的类型和 网页的编码,决定浏览器将以什么形式、什么编码读取这个文件,这就是经常看到一些 Asp 网页点击的结果却是下载到的一个文件或一张图片的原因。