HTTP 头部详解及使用 Java 套接字处理 HTTP 请求
进行 Web 开发关键是要了解超文本传输协议( HTTP ),该协议用来传输网页图像以及因特网上在浏览器与服务器间传输的其他类型文件只要你在浏览器上输入一个 URL ,最前面的 http:// 就表示使用 HTTP 来访问指定位置的信息(大部分浏览器还支持其他一些不同的协议,其中 FTP 就是一个典型例子)
本文从 HTTP 协议的结构上初步探讨 HTTP 协议的工作原理和请求响应格式 , 并最后通过一个使用 Java 编写的小 HTTP 服务器验证了如何处理和响应 HTTP 请求
HTTP 由两部分组成:请求和响应当你在 Web 浏览器中输入一个 URL 时,浏览器将根据你的要求创建并发送请求,该请求包含所输入的 URL 以及一些与浏览器本身相关的信息当服务器收到这个请求时将返回一个响应,该响应包括与该请求相关的信息以及位于指定 URL (如果有的话)的数据直到浏览器解析该响应并显示出网页(或其他资源)为止
HTTP 请求
HTTP 请求的格式如下所示:
< request-line >
< headers >
< blank line >
[ < request-body > ]
在 HTTP 请求中,第一行必须是一个请求行( request line ),用来说明请求类型要访问的资源以及使用的 HTTP 版本紧接着是一个首部( header )小节,用来说明服务器要使用的附加信息在首部之后是一个空行,再此之后可以添加任意的其他数据 [ 称之为主体( body ) ]
在 HTTP 中,定义了大量的请求类型,不过 Ajax 开发人员关心的只有 GET 请求和 POST 请求只要在 Web 浏览器上输入一个 URL ,浏览器就将基于该 URL 向服务器发送一个 GET 请求,以告诉服务器获取并返回什么资源对于 www.wrox.com 的 GET 请求如下所示:
GET / HTTP/1.1
Host: www.wrox.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6)
Gecko/20050225 Firefox/1.0.1
Connection: Keep-Alive
请求行的第一部分说明了该请求是 GET 请求该行的第二部分是一个斜杠( / ),用来说明请求的是该域名的根目录该行的最后一部分说明使用的是 HTTP 1.1 版本(另一个可选项是 1.0 )那么请求发到哪里去呢?这就是第二行的内容
第 2 行是请求的第一个首部, HOST 首部 HOST 将指出请求的目的地结合 HOST 和上一行中的斜杠( / ),可以通知服务器请求的是 www.wrox.com/ ( HTTP 1.1 才需要使用首部 HOST ,而原来的 1.0 版本则不需要使用)第三行中包含的是首部 User-Agent ,服务器端和客户端脚本都能够访问它,它是浏览器类型检测逻辑的重要基础该信息由你使用的浏览器来定义(在本例中是 Firefox 1.0.1 ),并且在每个请求中将自动发送最后一行是首部 Connection ,通常将浏览器操作设置为 Keep-Alive (当然也可以设置为其他值,但这已经超出了本书讨论的范围)注意,在最后一个首部之后有一个空行即使不存在请求主体,这个空行也是必需的
如果要获取一个诸如 http://www.wrox.com/books 的 www.wrox.com 域内的页面,那么该请求可能类似于:
GET /books/ HTTP/1.1
Host: www.wrox.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6)
Gecko/20050225 Firefox/1.0.1
Connection: Keep-Alive
注意只有第一行的内容发生了变化,它只包含 URL 中 www.wrox.com 后面的部分
要发送 GET 请求的参数,则必须将这些额外的信息附在 URL 本身的后面其格式类似于:
URL ? name1=value1&name2=value2&..&nameN=valueN
该信息称之为查询字符串( query string ),它将会复制在 HTTP 请求的请求行中,如下所示:
GET /books/?name=Professional%20Ajax HTTP/1.1
Host: www.wrox.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6)
Gecko/20050225 Firefox/1.0.1
Connection: Keep-Alive
注意,为了将文本 Professional Ajax 作为 URL 的参数,需要编码处理其内容,将空格替换成 %20 ,这称为 URL 编码( URL encoding ),常用于 HTTP 的许多地方( JavaScript 提供了内建的函数来处理 URL 编码和解码,这些将在本章中的后续部分中说明)名称值( namevalue )对用 & 隔开绝大部分的服务器端技术能够自动对请求主体进行解码,并为这些值的访问提供一些逻辑方式当然,如何使用这些数据还是由服务器决定的
浏览器发送的首部,通常比本文中所讨论的要多得多为了简单起见,这里的例子尽可能简短
另一方面, POST 请求在请求主体中为服务器提供了一些附加的信息通常,当填写一个在线表单并提交它时,这些填入的数据将以 POST 请求的方式发送给服务器
以下就是一个典型的 POST 请求:
POST / HTTP/1.1
Host: www.wrox.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6)
Gecko/20050225 Firefox/1.0.1
Content-Type: application/x-www-form-urlencoded
Content-Length: 40
Connection: Keep-Alive
name=Professional%20Ajax&publisher=Wiley
从上面可以发现, POST 请求和 GET 请求之间有一些区别首先,请求行开始处的 GET 改为了 POST ,以表示不同的请求类型你会发现首部 Host 和 User-Agent 仍然存在,在后面有两个新行其中首部 Content-Type 说明了请求主体的内容是如何编码的浏览器始终以 application/ x-www-form- urlencoded 的格式编码来传送数据,这是针对简单 URL 编码的 MIME 类型首部 Content-Length 说明了请求主体的字节数在首部 Connection 后是一个空行,再后面就是请求主体与大多数浏览器的 POST 请求一样,这是以简单的名称值对的形式给出的,其中 name 是 Professional Ajax , publisher 是 Wiley 你可以以同样的格式来组织 URL 的查询字符串参数
正如前面所提到的,还有其他的 HTTP 请求类型,它们遵从的基本格式与 GET 请求和 POST 请求相同下一步我们来看看服务器将对 HTTP 请求发送什么响应
HTTP 响应
如下所示, HTTP 响应的格式与请求的格式十分类似:
< status-line >
< headers >
< blank line >
[ < response-body > ]
正如你所见,在响应中唯一真正的区别在于第一行中用状态信息代替了请求信息状态行( status line )通过提供一个状态码来说明所请求的资源情况以下就是一个 HTTP 响应的例子:
HTTP/1.1 200 OK
Date: Sat, 31 Dec 2005 23:59:59 GMT
Content-Type: text/html;charset=ISO-8859-1
Content-Length: 122
< html >
< head >
< title > Wrox Homepage < /title >
< /head >
< body >
< !-- body goes here -- >
< /body >
< /html >
在本例中,状态行给出的 HTTP 状态代码是 200 ,以及消息 OK 状态行始终包含的是状态码和相应的简短消息,以避免混乱最常用的状态码有:
200 (OK): 找到了该资源,并且一切正常
304 (NOT MODIFIED): 该资源在上次请求之后没有任何修改这通常用于浏览器的缓存机制
401 (UNAUTHORIZED): 客户端无权访问该资源这通常会使得浏览器要求用户输入用户名和密码,以登录到服务器
403 (FORBIDDEN): 客户端未能获得授权这通常是在 401 之后输入了不正确的用户名或密码
404 (NOT FOUND): 在指定的位置不存在所申请的资源
在状态行之后是一些首部通常,服务器会返回一个名为 Data 的首部,用来说明响应生成的日期和时间(服务器通常还会返回一些关于其自身的信息,尽管并非是必需的)接下来的两个首部大家应该熟悉,就是与 POST 请求中一样的 Content-Type 和 Content-Length 在本例中,首部 Content-Type 指定了 MIME 类型 HTML ( text/html ),其编码类型是 ISO-8859-1 (这是针对美国英语资源的编码标准)响应主体所包含的就是所请求资源的 HTML 源文件(尽管还可能包含纯文本或其他资源类型的二进制数据)浏览器将把这些数据显示给用户
注意,这里并没有指明针对该响应的请求类型,不过这对于服务器并不重要客户端知道每种类型的请求将返回什么类型的数据,并决定如何使用这些数据
附录 : 使用 Java 套接字实现一个可以处理 get 和 post 请求的小 HTTP 服务器程序
/** *//**
* SimpleHttpServer.java
*/
import java.io.*;
import java.net.*;
import java.util.StringTokenizer;
/** *//**
* 一个简单的用 Java Socket 编写的 HTTP 服务器应用 , 演示了请求和应答的协议通信内容以及
* 给客户端返回 HTML 文本和二进制数据文件 ( 一个图片 ), 同时展示了 404, 200 等状态码 .
* 首先运行这个程序 , 然后打开 Web 浏览器 , 键入 http://localhost, 则这个程序能够显示出浏览器发送了那些信息
* 并且向浏览器返回一个网页和一副图片 , 并测试同浏览器对话 .
* 当浏览器看到 HTML 中带有图片地址时 , 则会发出第二次连接来请求图片等资源 .
* 这个例子可以帮您理解 Java 的 HTTP 服务器软件是基于 J2SE 的 Socket 等软件编写的概念 , 并熟悉
* HTTP 协议 .
* 相反的用 Telnet 连接到已有的服务器则可以帮忙理解浏览器的运行过程和服务器端的返回内容 .
*
* <pre>
* 当用户在 Web 浏览器地址栏中输入一个带有 http:// 前缀的 URL 并按下 Enter 后 , 或者在 Web 页面中某个以 http:// 开头的超链接上单击鼠标 ,HTTP 事务处理的第一个阶段 -- 建立连接阶段就开始了 .HTTP 的默认端口是 80.
* 随着连接的建立 ,HTTP 就进入了客户向服务器发送请求的阶段 . 客户向服务器发送的请求是一个有特定格式的 ASCII 消息 , 其语法规则为 :
* < Method > < URL > < HTTP Version > < >
* { <Header>:<Value> < >}*
* < >
* { Entity Body }
* 请求消息的顶端是请求行 , 用于指定方法 ,URL 和 HTTP 协议的版本 , 请求行的最后是回车换行 . 方法有 GET,POST,HEAD,PUT,DELETE 等 .
* 在请求行之后是若干个报头 (Header) 行 . 每个报头行都是由一个报头和一个取值构成的二元对 , 报头和取值之间以 ":" 分隔 ; 报头行的最后是回车换行 . 常见的报头有 Accept( 指定 MIME 媒体类型 ),Accept_Charset( 响应消息的编码方式 ),Accept_Encoding( 响应消息的字符集 ),User_Agent( 用户的浏览器信息 ) 等 .