http协议简介

最新推荐文章于 2024-10-12 21:06:55 发布

minitoy

最新推荐文章于 2024-10-12 21:06:55 发布

阅读量370

点赞数

分类专栏：安全相关文章标签：服务器浏览器 authorization internet http服务器 web服务

安全相关专栏收录该内容

19 篇文章 0 订阅

订阅专栏

简介 http(Hypertext Transfer Protocol) 超文本传输协议，从1990年开始就在www上广泛应用，是现今www上应用最多的协议，目前版本1.1 http是应用层协议，当你上网浏览网页的时候，浏览和web服务器之间就会通过http在internet上进行数据的发送和接收。http是一个基于请求/响应模式的、无状态的协议。 http是应用层协议，他要使用下层协议提供的服务，http的连接建立，就是利用传输层的 tcp协议来完成的。我们知道tcp是面向连接的协议。一方等待一方发起连接，web服务其连接就是等待的一方，浏览器是发起的一方。默认情况下浏览器与在web服务器80端口上的监听程序建立连接，在internet 上http协议基本上都是基于tcp协议的，但是在internet上不排除 http基于其他协议和网络的http实现方式传输。http只是假定传输是可靠的。因而任何能够提供这种保证都是可以使用的。持续连接(Persistent Connections) http1.0中，当连接建立后，浏览器发送一个请求，服务器回应一个消息，之后，连接就被关闭。当浏览器下次请求的时候，需要重新建立连接，很显然这种需要不断建立连接的通信方式造成的开销比较大。早期的web页面通常只包含html文本，因此即使建立连接的开销较大，不会有太大的影响，而现在web页面往往包含多种资源(图片，动画，声音等)，每获取一种资源就建立一次连接这样就增加了http服务器的开销，造成了internet上的信息阻塞。因此在http1.1版中，给出了持续连接的机制，并将其作为http1.1中建立连接的缺省行为。通过这种连接，浏览器可以建立一个连接之后，发送请求并得到回应，然后继续发送请求再次得到回应，而其，客户端还可以发送流水线请求，也就是说，客户端可以连续发送多个请求，而不用等待每一个响应的到来。 HTTP URL http url的格式如下：http://host[":"port][abs_path] 其中http表示要通过http协议来定位网络资源。host表示合法的internet主机域名或ip地址（以点分十进制的格式表示）。port用于指定一个端口号，拥有被请求资源的服务器主机监听该端口的tcp连接，如果port是空，或者没有给出，则使用缺省的端口80。abs_path指定请求资源的url，如果url中没有给出abs_path那么当它作为请求url时，必须以“/”的形式给出。通常，这个工作浏览器就帮我们完成了。我们在浏览器的地址栏中输入www.xx.com然后回车，浏览器会默认转换为http://www.xx.com/. 注: URI区别URL URI(Uniform Resource Identifier,统一资源标识符)纯粹是一个符号结构,用于指定构成web资源的字符串的各个不同部分. URL是一种特殊的URI,它包含了用于查找某个资源的足够信息.其它的URI, mailto:zhao@sina.com则不属于URL,因为它里面不存在根据该标识符来查找的任何数据.这种URI称为URN(通用资源名). HTTP 请求客户端通过发送HTTP请求向服务器请求资源的访问. HTTP 请求由三部分组成分别是请求行,消息报头,请求正文 . 请求行以一个方法符号开头,后面跟着请求URI 和协议的版本,以CRLF作为结尾,请求行以空格分隔,除了作为结尾的CRLF外,不允许出现单独的CR或者LF字符.格式如下: Method Request-URI HTTP-Version CRLF Method 表示请求的方法,Request-URI是一个统一资源标识符,标识了要请求的资源,HTTP-Version表示请求的HTTP协议的版本,如： GET /form.html HTTP/1.1(CRLF). HTTP请求方法作用 GET 请求获取由Request-URI所标识的资源 POST 在Request-URI所标识的资源后附加新的数据 HEAD 请求Request-URI所标识的资源响应消息报头 PUT 请求服务器存储一个资源，并用Request-URI作为其标识 DELETE 请求服务器删除由Request-URI所标识的资源 TRACE 请求服务器回送收到的请求信息，主要用于测试或诊断 CONNECT 保留将来使用。 OPTIONS 请求查询服务器的性能，或者查询与资源相关的选项和需求。注：HTTP协议是区分大小写的，但是form表单中的get/post是不区分大小写的。目前http协议中的方法都是大写的。 GET 方法用于获取由Request-URI所标识的资源的信息，常见格式： GET Request-URI HTTP/1.1 当我们通过在浏览器的地址栏中直接输入网址的方式访问网页的时候，浏览器采用的就是 GET 方法向服务器获取资源 POST 方法用于向目的服务器发出请求，要求服务器接受附在请求后面的数据。POST方法在表单提交的时候用的较多。采用POST方法提交表单的例子： POST/reg.jsp HTTP/1.1(CRLF) Accept:image/gif,image/x-xbit...........(CRLF) Host:www.xx.com(CRLF) Content-Length:22(CRLF) Connection:Keep-Alive(CRLF) Cache-Control:no-cache(CRLF) (CRLF)-----到上面的为消息报头 username=sss@password=wwww 上面再两个回车之后就是正文的内容 HEAD方法与GET方法几乎是一样的,他们的区别在于HEAD方法只是请求消息报头,而不是完整的内容.对于HEAD请求的回应部分来说,他的HTTP头部分中包含的信息与通过GET请求所得到的信息是相同的,利用这个方法,不必传输这个资源内容,就可以得到Request-URI所标识的资源信息.这个方法通常被用于测试超连接的有效性,是否可以访问,以及最近是否更新. HTTP响应在接受和解释请求信息后,服务器会返回一个HTTP响应消息. 与HTTP请求类似,HTTP响应也是由三个部分组成,分别是: 状态行，消息报头,响应正文. 状态行由协议版本,数字形式的状态代码,及相应的状态描述组成,各元素之间一空格分隔,除了结尾的CRLF(回车换行)序列外,不允许出现CR或LF字符.格式如下: HTTP-Version Status-Code Reason-Phrase CRLF HTTP-Version 表示服务器HTTP协议的版本,Status-Code表示服务器发回的响应代码,Reason-Phrase表示状态代码的文本描述,CRLF表示回车换行如 : HTTP/1.1 200 OK (CRLF) 状态代码由3位数字组成，表示请求是否被理解或被满足，状态描述了给出状态码的简短的文本描述。状态代码的第一个数字定义了响应的类别，后面两位数字没有具体的分类。第一个数字有五种可能的取值： -1XX：指示信息-表示请求已经接收，继续处理。 -2XX：成功- 表示请求已经被成功接收、理解、接受。 -3XX：重定向 - 要完成请求必须进行更进一步的操作。 -4XX：客户端错误 - 请求有语法错误或请求无法实现。 -5XX：服务端粗五 - 服务器未能实现合法的请求。 HTTP响应-状态代码与状态描述状态代码状态描述说明 200 ok 客户端请求成功。 400 bad request 由于客户端请求有语法错误，不能被服务器所理解。 401 unauthorized 请求未经授权。这个状态代码必须和www-authenticate报头域一起使用。 403 forbidden 服务器收到请求，但是拒绝提供服务。服务器通常会在响应中文中给出不提供服务的原因。 404 not found 请求的资源不存在，例如，输入了错误的URL HTTP 消息 HTTP 消息由客户端到服务器的请求和服务器到客户端的响应组成。请求消息和响应消息都是由开始行，消息报头（可选的），空行（只有CRLF的行），消息正文（可选的）组成。对于请求消息，开始行就是请求行，对于响应消息，开始行就是状态行。消息报头 HTTP 消息报头包括普通报头，请求报头，响应报头，实体报头。每一个报头域都是由名字+":"+空格+值组成，消息报头域的名字是大小写无关的。普通报头：在普通报头中，有少数报头域应用于所有的请求和响应消息，但并不用于被传输的实体，这些报头域只用于传输的消息。 cache-Control Cache-Control 普通报头域用于指定缓存指令，该指令将被请求/响应链中所有的缓存机制所遵循。这些指令将覆盖缺省的缓存规则。缓存指令是单向的，在请求出现缓存指令，并不意味着在响应中也会出现。此外，在一个消息（请求或响应消息）中指定的缓存指令，并不影响另一个消息的缓冲机制。注意：Cache-Control普通报头是在http1.1中新加的，HTTP1.0 使用的类似报头域为pragma 缓存指令分为请求时的缓存指令和响应时的缓存指令。请求时的缓存指令包括no-cache,no-store,max-age,max-stale,min-fresh,only-if-cached; 响应时的缓存指令包括public ,private ,no-cache ,no-store,no-transform,must-revalidate,proxy-revalidate,max-age,s-maxage. 其中最常用的是no-cache,用于指示请求或响应消息不能缓存。例如：为了指示ie浏览器（客户端）不要缓存页面，服务器端的jsp程序可以编写下面的代码： response.setHeader("Cache-Control","no-cache"); 这句代码将在发送的响应消息中设置普通报头域：Cache-Control: no-cache Date Date普通报头域表示消息产生的日期和时间，可以用于HTTP响应中，也可以用于HTTP请求中，作为服务器端，应该总是在所有的响应中包含Date报头域。作为客户端只有在发送的消息中包含了消息的正文的时候，才应该发送Date报头域，例如：在ＰＯＳＴ请求的时候。 Connection Connection普通报头域允许发送者指定连接的选项。例如指定连接是持续的，或者指定“close”选项，通知服务器，在响应完成后，关闭连接。 Accept Accept请求报头域用于指定客户端接受哪些类型的信息。例如：Accept:image/gis,表明客户端希望接受gif图像格式的资源;Accept:text/html,表明客户端希望接受html文本. Accept-Charset Accept-Charset请求报头域用于指定客户端接受的字符串.如: Accept-Charset:iso-8859-1,gb2312.如果在请求消息中没有设置这个域，缺省是任何字符集都可以接受。 Accept-Encoding Accept-Encoding请求报头域类似于Accept，但是它是用于指定可以接受的内容编码。例如：Accept-Encoding:gzip,deflate.如果请求消息中没有设置这个域，服务器假定客户端对各种内容编码都可以接受。 Accept-Language Accept-Language请求报头域类似于Accept，但是它是用于指定一种自然语言。例如：Accept-Language:zh-ch.如果请求消息中没有设置这个域，服务器假定客户端对各种语言都可以接受。 Authorization Authorization请求报头域主要用于证明客户端有权查看某个资源。当浏览器访问一个页面时，如果收到服务器响应代码为401（未授权），可以发送一个包含Authorization请求报头域的请求，要求服务器对其进行验证。 Host Host请求报头域主要用于指定被请求资源的internet主机和端口号，它通常是HTTP URL中提取出来的例如：http://www.xx.com/index.html浏览器发送的请求消息中，就会包含Host请求报头域，如下： Host:www.xx.com 后面没有跟端口号，表明使用的是缺省端口号80，如果端口号不是80，那么就要在主机后面加上一个冒号（：），然后接上端口号，例如： Host:www.xx.com:8080 注意: 在发送HTTP请求的时候这个报头域是必须的. User-Agent User-Agent请求报头域允许客户端将他的操作系统，浏览器和其他属性告诉服务器，不过这个报头域不是必须的，如果我们自己编写一个浏览器，不使用User-Agent请求报头域，那么服务器端就无法识别User-Agent中包含的操作系统等信息。响应报头允许服务器传递不能放在状态行中的附加响应信息，以及关于服务器的信息和Request-URI所标识的资源进行下一步访问的信息。 Location Location响应报头域用于重定向接受者到一个新的位置。例如：客户端所请求的页面已不存在原先的位置，为了让客户端重定向到这个页面新的位置，服务器端可以发回Location响应报头域。这种情况还经常发生在更换域名的时候，在旧的域名所对应的服务器上保留一个文件，然后使用重定向语句，让客户端去访问新的域名所对应的服务器上的资源。 Location：http://www.xx.com Server Server响应报头域包了服务器用来处理请求的软件信息。他和User-Agent请求报头域是相对应的，前者发送服务器软件的信息，后者发送客户端软件的信息（浏览器）和操作系统的信息。 Server：Apache-Coyote/1.1 消息报头-实体报头请求和响应消息都可以传送一个实体，一个实体由实体报头域和实体正文组成，在大多数情况下，实体正文就是请求消息中的请求正文或者响应消息中的响应正文。但是在发送时，并不是说实体报头域和实体正文要在一起发送，例如：有些响应可以包含实体报头域。实体就好像我们写的书信，而在信中，我们可以写上标题，加上页号等，这部分就相当于是实体报头域，而我们所写的书信的内容，就相当于是实体正文。前面所讲的普通报头，请求报头和响应报头我们可以看成写在信封上的邮编，接收者，发送者等内容。实体报头定义了关于实体正文（例如：有无实体正文）和请求所标识的资源的元信息。常用的实体报头 Content-Encoding Content-Encoding实体报头域被用作媒体类型的修饰符，它的值指示了已经被应用到实体正文的附加内容编码，因而要获得Content-Type报头域中所有引用的媒体类型，必须采用相应的解码机制。 Content-Encoding主要用于记录文档的压缩方法，下面是它的一个例子： Content-Encoding：gzip 如果是一个实体正文采用了编码方式存储，在使用之前就必须进行解码。 Content-Language Content-Languag实体报头域描述了资源所用的自然语言。Content-Language允许用户遵照自身的首选语言来识别和区分实体。如果这个实体内容仅仅打算提供给丹麦的阅读者，那么可以按照如下的方式设置这个实体报头域： Content-Language：da 如果没有指定Content-Language报头域，那么实体内容提供给所有语言的阅读者。 Content-Length Content-Length实体报头域用于指名实体正文的长度，以字节方式存储的十进制数据来表示，也就是一个数字字符占一个字节，用其对应的ASCCII码存储传输。要注意的是：这个长度仅仅是表示实体正文的长度，没有包括实体报头的长度。 Content-Type Content-Type实体报头域用于指明发送给接收者的实体正文的媒体类型。例如： Content-Type: text/html;charset=iso-8859-1 Content-Type: text/html;charset=gbk Last-Modified Last-Modified实体报头域用于指示资源最后的修改日期及时间。 Expires Expires实体报头域给出响应过期的日期和时间。通常，代理服务器或浏览器会缓存一些页面，当用户在次访问这些页面时，直接从缓存中加载并显示给用户，这样缩短了响应的时间，减少了服务器的负载。为了让代理服务器或浏览器在一段时间后更新页面，我们可以使用Expires实体报头域指定页面过期的时间。当用户又一次访问页面时，如果Expires报头给出的时间和时间比Date普通报头域给出的日期和时间早（或者相同），那么代理服务器或浏览器就不会再使用缓存的页面，而是从服务器上请求新的页面。不过要注意，即使页面过期了，也并不意味着服务器上的原始资源在此时间之前或者之后发生了改变。 Expires实体报头使用的日期和时间必须是RFC 1123中的日期格式，如 Expires:Thu,15 Sep 2008 16:00:00 GMT HTTP1.1的客户端和缓存必须将其他非法的日期格式（也包括0）看作已经过期。例如，为了让浏览器不要缓存页面，我们也可以利用Expires实体报头域，设置它的值为0，如下： response.setDateHeader("Expires",0);