from: http://myhat.blog.51cto.com/391263/104586
经 常看到HTTP客户端与服务器端交互原理的各种版本的文章,但是专业术语太多,且流程过于复杂,不容易消化。于是就按照在 Servlet 里面的内容大致做了一些穿插。本来 连 Tomcat 容器 和 Servlet 的生命周期也准备在这里一起写的,但怕过去庞大,于是就简单的 引用了一些 Servlet 对象。这样的一个整个流程看下来,相信至少在理解 HTTP协议 和 request 和 response 是如何完成从请求到生成响应结果回发的。在后续的一些文章里会专门讲一讲 Tomcat 和 Servlet 是如何处理请求和完成响应的,更多的是说明Servlet 的生命周期。
HTTP介绍
一、HTTP协议是什么
我们在浏览器的地址栏里输入的网站地址叫做URL(UniformResourceLocator,统一资源定位符)。就像每家每户都有一个门牌地址一 样,每个网页也都有一个Internet地址。当你在浏览器的地址框中输入一个URL或是单击一个超级链接时,URL就确定了要浏览的地址。浏览器通过超 文本传输协议(HTTP),将Web服务器上站点的网页代码提取出来,并翻译成漂亮的网页。因此,在我们认识HTTP之前,有必要先弄清楚URL的组成, 例如: http://www.microsoft.com/china/index.htm。它的含义如下:
1.http://:代表超文本传输协议,通知 microsoft.com服务器显示Web页,通常不用输入;
2.www:代表一个Web(万维网)服务器;
3.Microsoft.com/:这是装有网页的服务器的域名,或站点服务器的名称;
4.China/:为该服务器上的子目录,就好像我们的文件夹;
5.Index.htm:index.htm是文件夹中的一个HTML文件(网页)。
我们知道,Internet的基本协议是TCP/IP协议,然而在TCP/IP模型最上层的是应用层(Applicationlayer),它包含所有 高层的协议。高层协议有:文件传输协议FTP、电子邮件传输协议SMTP、域名系统服务DNS、网络新闻传输协议NNTP和HTTP协议等。
HTTP协议(HypertextTransferProtocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以 使浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形) 等。这就是你为什么在浏览器中看到的网页地址都是以“http://”开头的原因。
自WWW诞生以来,一个多姿多彩的资讯和虚拟的世界便出现在我们眼前,可是我们怎么能够更加容易地找到我们需要的资讯呢?当决定使用超文本作为WWW文 档的标准格式后,于是在1990年,科学家们立即制定了能够快速查找这些超文本文档的协议,即HTTP协议。经过几年的使用与发展,得到不断的完善和扩 展,目前在WWW中使用的是HTTP/1.0的第六版。
我们在浏览器的地址栏里输入的网站地址叫做URL(UniformResourceLocator,统一资源定位符)。就像每家每户都有一个门牌地址一 样,每个网页也都有一个Internet地址。当你在浏览器的地址框中输入一个URL或是单击一个超级链接时,URL就确定了要浏览的地址。浏览器通过超 文本传输协议(HTTP),将Web服务器上站点的网页代码提取出来,并翻译成漂亮的网页。因此,在我们认识HTTP之前,有必要先弄清楚URL的组成, 例如: http://www.microsoft.com/china/index.htm。它的含义如下:
1.http://:代表超文本传输协议,通知 microsoft.com服务器显示Web页,通常不用输入;
2.www:代表一个Web(万维网)服务器;
3.Microsoft.com/:这是装有网页的服务器的域名,或站点服务器的名称;
4.China/:为该服务器上的子目录,就好像我们的文件夹;
5.Index.htm:index.htm是文件夹中的一个HTML文件(网页)。
我们知道,Internet的基本协议是TCP/IP协议,然而在TCP/IP模型最上层的是应用层(Applicationlayer),它包含所有 高层的协议。高层协议有:文件传输协议FTP、电子邮件传输协议SMTP、域名系统服务DNS、网络新闻传输协议NNTP和HTTP协议等。
HTTP协议(HypertextTransferProtocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以 使浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形) 等。这就是你为什么在浏览器中看到的网页地址都是以“http://”开头的原因。
自WWW诞生以来,一个多姿多彩的资讯和虚拟的世界便出现在我们眼前,可是我们怎么能够更加容易地找到我们需要的资讯呢?当决定使用超文本作为WWW文 档的标准格式后,于是在1990年,科学家们立即制定了能够快速查找这些超文本文档的协议,即HTTP协议。经过几年的使用与发展,得到不断的完善和扩 展,目前在WWW中使用的是HTTP/1.0的第六版。
1.
HTTP是一种超文本传送协议(
HyperText Transfer Protocol),是一套计算机在网络中通信的一种规则。在TCP/IP体系结构中,HTTP属于应用层协议,位于TCP/IP协议的顶层。
2.HTTP是一种无状态的的协议,意思是指 在Web 浏览器(客户端)和 Web 服务器之间不需要建立持久的连接。整个过程就是当一个客户端向服务器端发送一个请求(request),然后Web服务器返回一个响应 (response),之后连接就关闭了,在服务端此时是没有保留连接的信息。
3.HTTP 遵循 请求/响应(request/response) 模型的,所有的通信交互都被构造在一套请求和响应模型中。
4.浏览WEB时,浏览器通过HTTP协议与WEB服务器交换信息,Web服务器向Web浏览器返回的文件都有与之相关的类型,这些信息类型的格式由MIME定义。
HTTP定义的事务处理由以下四步组成:
1.建立连接
2.客户端发送HTTP请求头
3.服务器端响应生成结果 回发
4.服务器端关闭连接,客户端解析回发响应头,恢复页面
###############################################################################################
1.建立连接:以下用我的另一篇文章的地址做为例子
Servlet容器(Tomacat)介绍及配置
客户端,也就是我请求一个地址时 即打开了到 web 服务器的HTTP端口的一个套接字。因为在网络中间作为传递数据的实体介质就是网线,数据实质上是通过IO流进行输出和输入,这就不难理解我们为什么在写 一个Servlet的时候要引用 import java.io.*; 的原因 ,包括我们在向客户端回发结果的时候要用到 PrintWriter 对象的println()方法。
比如我在这里请求CSDN社区的一个地址
[url]http://blog.csdn.net[/url],
实际上首先要请求这个地址,以及一个端口80(8080)
[url]http://blog.csdn.net:80[/url] 80可以不写,是因为浏览器网页服务默认的端口号是 80.
在Java底层代码中是这样实现的,只不过它们已经帮我们做了。
Soceet socket=new Socket("blog.csdn.net",8080);
InputStream in=socket.getInputStream();
OutputStream out=socket.getOutputStream();
2.客户端发送HTTP请求头
在Java底层代码中是这样实现的,只不过它们已经帮我们做了。
Soceet socket=new Socket("blog.csdn.net",8080);
InputStream in=socket.getInputStream();
OutputStream out=socket.getOutputStream();
2.客户端发送HTTP请求头
一旦建立了TCP连接,Web浏览器就会向Web服务器发送请求命令,是一个ASCII文本请求行,后跟0个或多个HTTP头标,一个空行和实现请求的任意数据。
四个部分:请求行,请求头标,空行和请求数据
1)请求行由三个标记组成
请求方法
请求URL
HTTP版本 中间用空格分开
例如: GET lvpin/archive/2007/06/09/1645767.aspx HTTP/1.1
例如: GET lvpin/archive/2007/06/09/1645767.aspx HTTP/1.1
HTTP规范定义了8种可能的请求方法:(最常见的就是 GET 和 POST 两种方法)
GET 检索URI中标识资源的一个简单请求
HEAD 与GET方法相同,服务器只返回状态行和头标,并不返回请求文档
POST 服务器接受被写入客户端输出流中的数据的请求
PUT 服务器保存请求数据作为指定URI新内容的请求
DELETE 服务器删除URI中命名的资源的请求
OPTIONS 关于服务器支持的请求方法信息的请求
TRACE Web服务器反馈Http请求和其头标的请求
CONNECT 已文档化但当前未实现的一个方法,预留做隧道处理
GET 检索URI中标识资源的一个简单请求
HEAD 与GET方法相同,服务器只返回状态行和头标,并不返回请求文档
POST 服务器接受被写入客户端输出流中的数据的请求
PUT 服务器保存请求数据作为指定URI新内容的请求
DELETE 服务器删除URI中命名的资源的请求
OPTIONS 关于服务器支持的请求方法信息的请求
TRACE Web服务器反馈Http请求和其头标的请求
CONNECT 已文档化但当前未实现的一个方法,预留做隧道处理
2).请求头标:由key :value 健值组成,每行一对。请求头标 通知服务器有关客户端的功能和标识。
HOST 请求的哪一个服务器端地址,主地址 ,比如 我现在所在的CSDN blog.csdn.net/
User-Agent 用户即客户端可以使用的浏览器 ,如 : Mozilla/4.0
Accept 即客户端可以接受的MIME 类型列表,如image/gif text/html, application/msword
Content-Length 只适用于POST请求,以字节给出POST数据的尺寸
3)空行
发送回车符和退行,通知服务器以下不再有头标。
4)请求数据 : 使用POST传送数据,最常使用的是Content-Type和Content-Length头标。
总结以上 我们可以这样写出一个标准的 HTTP请求
POST /lvpin/archive/2007/06/09/1645767.aspx HTTP1.1
HOST:
blog.csdn.net/
User-Agent :Mozilla/4.0
Accpt: image/gif,text/html,application/pdf,image/png...
key=value&key=value&key=value.....................................(POST()请求的数据)
那么,这上面的一个例子说明的就是
这个页面用的是 HTTP1.1 规范 我的浏览器版本是Mozilla/4.0
可以支持的MIME格式为 image/gif,text/html,application/pdf,image/png...等等
这个MIME格式我们在 response.setContentType("text/html;charset=gb2312");
或者<meta .....contentType="text/html;charset=gb2312"..>总能见到
那么在这里
如何理解 GET 和 POST 最直观的区别,最明显的就是 GET方法将数据的请求跟在了所请求的URL后面,也就是 在请求行里面我们是这么样来做的:
GET lvpin/archive/2007/06/09/1645767.aspx?key=value&key=value&key=value......HTTP1.1
也实际上就是 用 GET 如此传递数据 :
[url]http://blog.csdn.net/[/url] lvpin/archive/2007/06/09/1645767.aspx
?name=simon&password=simonlv........
3.服务器端接受请求,处理数据后生成响应返回数据到客户端 (部分Servlet 内容穿插)
Web 服务器 解析请求,定位指定的资源[url]http://blog.csdn.net/lvpin/archive/2007/06/09/1645767.aspx[/url]
1)根据在 请求时的 GET/POST 来按照响应的 doGet() /doPost()方法来处理(有可能是一些业务逻辑,也有可能是一些验证等等,也有可能是一些数据查询,提交等等)其有效的数据就来源于name=simon&password=simonlv,还有 其它的一些封装在 request 对象中的数据资源。
2)处理请求之后,由 response 对象得到 PriterWriter 输出流对象out ,通过 out.println () 将数据以 在客户端提交过的采用的Accpt: 中形式的一种 如 按照 response.setcontentType("text/html;charset=gb2312' )的格式输出流。
它的响应信息与请求信息非常类似,其区别就在于 我们在请求阶段的请求行被状态行给替换了,再来看响应头
一个响应由四个部分组成;状态行、响应头标、空行、响应数据
1.状态行:状态行由三个标记组成:HTTP版本、响应代码和响应描述。
HTTP1.1 100 continue ------继续追加后继内容
HTTP/1.1 200 OK --------一切正常
HTTP1.1 301 Moved Permanently ---请求的文档在其它地方,会自动连接
HTTP1.1 403 Forbidden -------绝对拒绝你访问这个资源,不管授权没有
HTTP1.1 400 Bad Request -----客户端请求中的不良语法
HTTP1.1 404 Not Found ---最常见,绝对是大名鼎鼎的找不到
HTTP响应码:
1xx:提示性信息,告诉客户端应该对某些其它的动作作出响应
1xx:提示性信息,告诉客户端应该对某些其它的动作作出响应
2xx:这些就代表了请求成功
3xx:重定向,为了完成请求,必须进一步执行的动作
3xx:重定向,为了完成请求,必须进一步执行的动作
4xx:客户端错误
500-599:服务器端的错误
2.响应头标:像请求头标一样,它们指出服务器的功能,标识出响应数据的细节。
Date: Sat, 31 Dec 2005 23:59:59 GMT --响应生成的日期和时间
ContentType: text/html;charset=gb2312'
Content-Length: 122 ---响应中的字节数,只在浏览器使用永久(Keep-alive)HTTP连接时需要。
3.空行:最后一个响应头标之后是一个空行,发送回车符和退行,表明服务器以下不再有头标。
3.空行:最后一个响应头标之后是一个空行,发送回车符和退行,表明服务器以下不再有头标。
4.响应数据:HTML文档和图像等,也就是HTML本身。out.println("<html>").......写出的。。。
<html>
<head>
<title>Welcom to simon lv 's home</title>
</head>
<body>
<!-- 这里是具体的内容,看到了这里
<head>
<title>Welcom to simon lv 's home</title>
</head>
<body>
<!-- 这里是具体的内容,看到了这里
相信大家对 HTTP 工作原理和服务器交互过程已经很清楚了吧
-->
</body>
</html>
</body>
</html>
4.服务器端关闭连接,客户端解析回发响应头,恢复页面
1)浏览器先解析状态行,查看请求是否成功的状态代码--HTTP响应码:404 400 200 ....
2) 解析 每一个响应头标 如
ContentType: text/html;charset=
gb2312
Content-Length: 122 ---响应中的字节数,只在浏览器使用永久(Keep-alive)HTTP连接时需要。
3) 读取响应数据HTML,根据它的语法标签<html></html>等和内容恢复标准的HTML格式页面或者其它。
3) 读取响应数据HTML,根据它的语法标签<html></html>等和内容恢复标准的HTML格式页面或者其它。
4)一个HTML 文档可能包含其它的需要被载入的资源,浏览器会识别,并对这些资源再进行额外的请求,这个过程可以一直循环到所有的数据都按照响应头标中规定的格式恢复到页面中。
5)数据传送完毕,服务器端关闭连接,即无状态协议。
写了很长时间,估计里面也有些没有表达清楚的地方,但是整个流程可以清晰的展现,对于大家理解HTTP请求头和响应头的内容以及他们之间的关