HTTP协议详解

1、什么是HTTP协议

  协议是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则,超文本传输协议(HTTP)是一种通信协议,它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器。

2、Web服务器,浏览器,代理服务器

  当我们打开浏览器,在地址栏中输入URL,然后我们就看到了网页。 原理是怎样的呢?

  实际上我们输入URL后,我们的浏览器给Web服务器发送了一个Request,Web服务器接到Request后进行处理,生成相应的Response,然后发送给浏览器,浏览器解析Response中的HTML,这样我们就看到了网页,过程如下图所示:

      


     我们的Request 有可能是经过了代理服务器,最后才到达Web服务器的。过程如下图所示:

       

    代理服务器就是网络信息的中转站,有什么功能呢?

    1. 提高访问速度, 大多数的代理服务器都有缓存功能。

    2. 突破限制, 也就是翻墙了

    3. 隐藏身份。

3、URL详解

  URL(Uniform Resource Locator) 地址用于描述一个网络上的资源, 基本格式如下

schema://host[:port#]/path/.../[;url-params][?query-string][#anchor]

  scheme              指定低层使用的协议(例如:http, https, ftp)

  host                  HTTP服务器的IP地址或者域名

  port#                HTTP服务器的默认端口是80,这种情况下端口号可以省略。如果使用了别的端口,必须指明,例如http://www.cnblogs.com:8080/

  path                  访问资源的路径

  url-params

  query-string      发送给http服务器的数据

  anchor-            

  下面给出一个URL 的例子:

 

    http://www.mywebsite.com/sj/test;id=8079?name=sviergn&x=true#stuff

    Schema:http

    host:www.mywebsite.com

    path:/sj/test

    URL params:id=8079

    QueryString: name=sviergn&x=true

    Anchor:stuff

4、HTTP协议是无状态的

  http协议是无状态的,同一个客户端的这次请求和上次请求是没有对应关系,对http服务器来说,它并不知道这两个请求来自同一个客户端。 为了解决这个问题,Web程序引入了Cookie机制来维护状态。
5、HTTP消息的结构

  先看Request 消息的结构,Request 消息分为3部分,第一部分叫请求行,第二部分叫http header, 第三部分是body。header和body之间有个空行, 结构如下图:


    第一行中的Method表示请求方法,比如"POST","GET", Path-to-resoure表示请求的资源,Http/version-number 表示HTTP协议的版本号。

  当使用的是"GET" 方法的时候, body是为空的

  比如我们打开博客园首页的request 如下

GET http://www.cnblogs.com/ HTTP/1.1

Host: www.cnblogs.com

  我们用Fiddler 捕捉一个博客园登录的Request 然后分析下它的结构,在Inspectorstab下以Raw的方式可以看到完整的Request的消息,如下图:



   我们再看Response消息的结构, 和Request消息的结构基本一样。 同样也分为三部分,第一部分叫request line,第二部分叫request header,第三部分是body. header和body之间也有个空行,结构如下图:

        

  HTTP/version-number表示HTTP协议的版本号,  status-code和message 请看下节[状态代码]的详细解释.

  我们用Fiddler 捕捉一个博客园首页的Response然后分析下它的结构, 在Inspectorstab下以Raw的方式可以看到完整的Response的消息,如下图:



 6、Get和Post方法的区别

  Http协议定义了很多与服务器交互的方法,最基本的有4种,分别是GET,POST,PUT,DELETE.一个URL地址用于描述一个网络上的资源,而HTTP中的GET, POST, PUT,DELETE就对应着对这个资源的查,改,增,删4个操作。 我们最常见的就是GET和POST了。GET一般用于获取/查询资源信息,而POST一般用于更新资源信息。

  我们看看GET和POST的区别

  1.GET提交的数据会放在URL之后,以?分割URL和传输数据,参数之间以&相连,如EditPosts.aspx?name=test1&id=123456. POST方法是把提交的数据放在HTTP包的Body中.

  2. GET提交的数据大小有限制(因为浏览器对URL的长度有限制),而POST方法提交的数据没有限制.

  3.GET方式需要使用Request.QueryString来取得变量的值,而POST方式通过Request.Form来获取变量的值。

  4.GET方式提交数据,会带来安全问题,比如一个登录页面,通过GET方式提交数据时,用户名和密码将出现在URL上,如果页面可以被缓存或者其他人可以访问这台机器,就可以从历史记录获得该用户的账号和密码。

 

GET PUTPOST的含义(Http)

POST  /articles    创建
DELETE /articles/123 删除 
PUT   /articles/123 更新或创建
GET   /articles/123 查看

顺便说说几个知识点:

    GET操作是安全的。所谓安全是指不管进行多少次操作,资源的状态都不会改变。比如我用GET浏览文章,不管浏览多少次,那篇文章还在那,没有变化。当然,你可能说每浏览一次文章,文章的浏览数就加一,这不也改变了资源的状态么?这并不矛盾,因为这个改变不是GET操作引起的,而是用户自己设定的服务端逻辑造成的。

    PUT,DELETE操作是幂等的。所谓幂等是指不管进行多少次操作,结果都一样。比如我用PUT修改一篇文章,然后在做同样的操作,每次操作后的结果并没有不同,DELETE也是一样。顺便说一句,因为GET操作是安全的,所以它自然也是幂等的。

    POST操作既不是安全的,也不是幂等的,比如常见的POST重复加载问题:当我们多次发出同样的POST请求后,其结果是创建出了若干的资源。

    安全和幂等的意义在于:当操作没有达到预期的目标时,我们可以不停的重试,而不会对资源产生副作用。从这个意义上说,POST操作往往是有害的,但很多时候我们还是不得不使用它。

   还有一点需要注意的就是,创建操作可以使用POST,也可以使用PUT,区别在于POST是作用在一个集合资源之上的(/articles),而PUT操作是作用在一个具体资源之上的(/articles/123),再通俗点说,如果URL可以在客户端确定,那么就使用PUT,如果是在服务端确定,那么就使用POST,比如说很多资源使用数据库自增主键作为标识信息,而创建的资源的标识信息到底是什么只能由服务端提供,这个时候就必须使用POST。

 

 

关于GET POST 的混淆
先说相同点,只有了解了相同点之后才能理解为什么会发生混淆。
两者都能向服务器发送数据,提交的“内容”[注1]的格式相同,都是
var_1=value_1&var_2=value_2&....

get 和 post 区别如字面,一个是get(获取),一个是post(发送)。

get用来告诉服务器需要获取哪些内容(uri+query),向静态页面(uri)请求则直接返回文件内容给浏览器,向一个动态页面请求时可以提供查询参数(query)以获得相应内容。

post用来向服务器提交内容,主要是为了提交,而不是为了请求内容,就是说post的初衷并不要求服务器返回内容[注2],只是提交内容让服务器处理(主要是存储或者处理之后再存储)。

get和post出现混淆是因为对提交的数据处理方法的滥用造成的,数据是无辜的。

混淆之一:
将get提交的用来查询的字段当作是存储数据存入了服务器端文件或者数据库。然后就误以为get是用来提交用于存储的数据的。

混淆之二:
编写脚本在服务器端通过处理post提交的数据并返回内容。只要有数据,就能用来进行判断,脚本怎写是程序员的事,而不在乎数据来源的形式(post、get,或者是自己预设值的常量)。这点功能上确实没问题,只是背离的其初始目的而已。

由于都是要传送数据,且数据格式相同(即使数据格式不同,只要能提取出相应数据)。使用的时候难免出现张冠李戴,将get数据用来存储、将post数据用来检索返回数据。但是二者还是有区别的(主要是根据其用途而“人为”[注3]造成的),get的长度限制在2048字节(由浏览器和服务器限制的,这是目前IE的数据,曾经是1024字节),很大程度上限制了get用来传递“存储数据”的数据的能力,所以还是老老实实用来做检索吧;post则无此限制(只是HTTP协议规范没有进行大小限制,但受限于服务器的处理能力),因此对于大的数据(一般来说需要存储的数据可能会比较大,比2048字节大)的传递有天然的优势,谁让它是nature born post 呢。

get提交的数据是放在url里,目的是灵活的向服务其提交检索请求,可以在地址栏随时修改数据以变更需要获取的内容,比如直接修改分页的编号就跳到另外一个分页了(当然也可能是404)。post提交的数据放在http请求的正文里,目的在于提交数据并用于服务器端的存储,而不允许用户过多的更改相应数据(主要是相对于在url修改要麻烦很多,url的修改只要点击地址栏输入字符就可以了),除非是专门跑来编辑数据的。

花边:post和get的安全性在传输的层面上区别不大,但是采用url提交数据的get方式容易被人肉眼看到,或者出现在历史纪录里,还是可能被肉眼看到,都是一些本地的问题。

注1:我强调的是内容,至于http协议中的get和post的格式大家有兴趣就自己看看吧。
注2:get方式主要是为了获得预期内容,即uri+query相同时所得到的内容应该是相同的。而post主要是提交内容,至于是否有必要返回页面可能只是出于用户体验,比如注册时返回你的注册id,但是如果只是返回一个“您已注册成功”的相同页面(即使你post的数据不一样)也没什么好奇怪的。
注3:关于这个“人为”,不是那么贴切,get和post还是有技术层面的区别的。但是从表象上看暂且这么说吧,毕竟二者的混淆也是“人为”的。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值