图解HTTP——学习笔记(一)

1.1 使用HTTP协议访问Web

根据Web浏览器地址栏中指定的URL,Web浏览器从Web服务器端获取文件资源等信息,从而显示出Web页面。

Web使用一种名为HTTP(HyperText Transfer Protocol)的协议作为规范,完成从客户端到服务器端等一系列运作流程。而协议是规则的约定。可以说Web是建立在HTTP协议上通信的。
1.2 HTTP的诞生

1. 为知识共享而规划Web
1989年3月,由CERN的蒂姆-伯纳斯-李博士提出共享知识的设想。
最初基本理念:借助多文档之间相互关联形成的超文本,连成克相互参阅的WWW(World Wide Web)
现今的3项WWW构建技术

	把SGML(Standard Generalized Markup Language,标准通用标记语言)作为页面的文本标记语言的HTML(HyperText Markup Language,超文本标记语言)
	作为文档传递协议的HTTP
	指定文档所在地址的URL(Uniform Resource Locator,统一资源定位符) 

2. Web成长时代
1990年11月,CERN研发了世界第一台Web服务器和Wen浏览器
1990年,HTML1.0草案由于存在多处模糊不清的部分,被直接废弃
1993年1月,现代浏览器的祖先NCSA研发的Web浏览器Mosaic问世,它以in-line等形式显示HTML的图像,迅速在世界范围内流行开来。同年Mosaic的Windows和Macintosh版本面试,使用CGI技术的NCSA Web服务器,NCSA HTTPd1.0也差不多在这个时期出现
1994年12月,网景通信公司发布Netscape Navigator 1.0,1995年微软发布Internet Explorer 1.0和2.0。紧接着是Apache 0.2的问世,而HTML也发布了2.0版本。
Internet Explorer的版本从6升到7花费了5年,之后接连不断的发布了8、9、10版本,而Chrome,Opera,Safari,FireFox等浏览器也纷纷抢占市场份额

3. 驻足不前的HTTP

HTTP/0.9
HTTP于1990年问世,这时的HTTP并没有作为正式的标准被建立
HTTP/1.0
HTTP正式作为标准是1996年5月,虽是初期标准,但该协议标准至今仍被广泛使用在服务端
HTTP/1.1
1997年1月公布的HTTP/1.1是目前主流的HTTP协议版本。
HTTP/2.0
2015年5月正式发布

1.3 网络基础TCP/IP

通常使用的网络包括互联网是在TCP/IP协议族的基础上运作的,而HTTP属于它内部的一个子集。

  • TCP/IP协议族
    计算机与网络设备要相互通信, 双方就必须基于相同的方法。 比如,如何探测到通信目标、 由哪一边先发起通信、 使用哪种语言进行通信、 怎样结束通信等规则都需要事先确定。 不同的硬件、 操作系统之间的通信, 所有的这一切都需要一种规则。 而我们就把这种规则称为协议(protocol)
    协议中存在各式各样的内容。 从电缆的规格到 IP 地址的选定方法、寻找异地用户的方法、 双方建立通信的顺序, 以及 Web 页面显示需要处理的步骤, 等等。
    像这样把与互联网相关联的协议集合起来总称为 TCP/IP。 也有说法认为, TCP/IP 是指 TCP 和 IP 这两种协议。 还有一种说法认为, TCP/IP 是在 IP 协议的通信过程中, 使用到的协议族的统称

  • TCP/IP的分层管理
    TCP/IP 协议族按层次分别分为以下 4 层:应用层,传输层,网络层和数据链路层

    应用层: 应用层决定了向用户提供应用服务时通信的活动。
    TCP/IP 协议族内预存了各类通用的应用服务。 比如, FTP(FileTransfer Protocol, 文件传输协议) 和 DNS(Domain Name System, 域名系统) 服务就是其中两类。
    HTTP 协议也处于该层。
    传输层: 传输层对上层应用层, 提供处于网络连接中的两台计算机之间的数据传输。
    在传输层有两个性质不同的协议: TCP(Transmission ControlProtocol, 传输控制协议) 和 UDP(User Data Protocol, 用户数据报协议)。
    网络层: 网络层用来处理在网络上流动的数据包。
    数据包是网络传输的最小数据单位。 该层规定了通过怎样的路径(所谓的传输路线) 到达对方计算机, 并把数据包传送给对方。
    与对方计算机之间通过多台计算机或网络设备进行传输时, 网络层所起的作用就是在众多的选项内选择一条传输路线。
    链路层: 用来处理连接网络的硬件部分。 包括控制操作系统、 硬件的设备驱动、 NIC(Network Interface Card, 网络适配器, 即网卡) , 及光纤等物理可见部分(还包括连接器等一切传输媒介) 。 硬件上的范畴均在链路层的作用范围之内。

  • TCP/IP通信传输流
    利用 TCP/IP 协议族进行网络通信时, 会通过分层顺序与对方进行通信。 发送端从应用层往下走, 接收端则往应用层往上走。
    以HTTP为例,首先作为发送端的客户端在应用层(HTTP)发出一个想看某个Web页面的HTTP请求。
    接着,为了传输方便,在传输层(TCP)把从应用层处收到的数据(HTTP 请求报文) 进行分割, 并在各个报文上打上标记序号及端口号后转发给网络层。
    在网络层(IP 协议) , 增加作为通信目的地的 MAC 地址后转发给链路层。 这样一来, 发往网络的通信请求就准备齐全了。
    接收端的服务器在链路层接收到数据, 按序往上层发送, 一直到应用层。 当传输到应用层, 才能算真正接收到由客户端发送过来的 HTTP请求。

     发送端在层与层之间传输数据时, 每经过一层时必定会被打上一个该层所属的首部信息。 反之, 接收端在层与层传输数据时, 每经过一层时会把对应的首部消去。
    

这种把数据信息包装起来的做法称为封装(encapsulate)。

1.4 与HTTP关系密切的协议:IP、TCP、和DNS
  • 负责传输的IP协议
    按层次分,IP位于网络层。
    IP协议的作用是把各种数据包传送给对方。而要保证确实传送到对方那里,则需要满足各类条件。其中两个重要的条件是IP地址和MAC地址。

     IP地址指明了节点被分配到的地址,MAC地址是指网卡所属的固定地址。IP地址可以和MAC地址进行配对。IP地址可变换,但MAC地址基本上不会更改。
    

    在网络上,通信的双方在同一局域网(LAN)的情况是很少的,通常是经过多台计算机和网络设备中转才能连接到对方。而在进行中转时,会利用下一站中转设备的MAC地址来搜索下一个中转目标。这时,会采用ARP协议(Address Resolution Protocol)。ARP是一种用以解析地址的协议,根据通信方的IP地址就可以反查出对方的MAC地址。
    在到达通信目标前的中转过程中,中转机制为路由选择(routing)。类似快递公司的送货过程。寄快递时,只要将自己的货物送到集散中心,就可以知道快递公司是否肯收件发货,该快递公司的集散中心检查送货地址,明确下站该送往哪个地区的集散中心,接着那个地区的集散中心就会判断是否能够送到对方家中。

  • 确保可靠性的TCP协议
    按层次分,TCP位于传输层,提供可靠的字节流服务。

     所谓的字节流服务(Byte Stream Service)是指,为了方便传输,将大块数据分割成以报文段(Segment)为单位的数据包进行管理。而可靠的传输服务是指,能够把数据准确可靠的传给对方。
    

    为了准确无误地将数据传送到目标处,TCP协议采用了三次握手策略。用TCP协议将数据包传送出去后,TCP一定会向对方确认是否成功送达。握手过程中使用了TCP的标志——SYN(synchronize)和ACK(acknowledgement)。
    发送端首先发送一个带SYN标志的数据包给对方,接收端收到后,回传一个带有SYN/ACK标志的数据包以示传到确认信息。最后发送端再回传一个带有ACK标志的数据包,代表“握手”结束。
    若是在过程中某个阶段莫名中断,TCP协议会再次以相同的顺序发送相同的数据包。
    此外,TCP还有其他方法来保证通信的可靠性。

    1.5 负责域名解析的DNS服务
     DNS(Domain Name System)服务是和HTTP协议一样位于应用层的协议。它提供域名到IP地址之间的解析服务。
    

    用户通常使用主机名或者域名来访问对方的计算机,为不是直接通过IP地址访问。但让计算机理解名称,相对而言就变得困难了。
    为了解决上述的问题,DNS服务应运而生。

     DNS协议提供通过域名查找IP地址,或逆向从IP地址反查域名的服务。
    
1.6 各种协议与HTTP协议的关系

在这里插入图片描述

1.7 URI和URL

和URI(Uniform Resource Identifier,统一资源标识符)相比,我们更熟悉URL(Uniform Resource Locator,统一资源定位符)。
URL如:www.bilibili.com
URI:

  • Uniform
    规定统一的格式可方便处理多种不同类型的资源, 而不用根据上下文环境来识别资源指定的访问方式。 另外, 加入新增的协议方案(如http: 或 ftp:) 也更容易

  • Resource
    资源的定义是“可标识的任何东西”。 除了文档文件、 图像或服务(例如当天的天气预报) 等能够区别于其他类型的, 全都可作为资源。 另外, 资源不仅可以是单一的, 也可以是多数的集合体。

  • Identifier
    表示可标识的对象。也称为标识符。

     综上所述,URI就是由某个协议方案表示的资源的定位标识符。协议方案是指访问资源所使用的协议类型名称
    

URI用字符串标识某一互联网资源,而URL表示资源的地点。可见URL是URI的子集
“RFC3986:统一资源标识符(URI)通用语法”中列举了几种URI例子:
在这里插入图片描述

URI格式

绝对URI格式
在这里插入图片描述

  • 使用http:或https:等协议方案名获取访问资源时要指定协议类型。不区分字母大小写,最后附一个冒号(:)。
    也可使用data:或javascript:这类指定数据或脚本程序的方案名

  • 登陆信息(认证)
    指定用户名和密码作为从服务器端获取资源时必要的登陆信息(身份认证),可选项。

  • 服务器地址
    使用决定URI必须指定待访问的服务器地址

  • 服务器端口号
    指定服务器连接的网络端口号,可选项,若省略则使用默认端口号

  • 带层次的文件路径
    指定服务器上的文件路径来定位特指的资源。这与UNIX系统的文件目录结构相似

  • 查询字符串
    针对已指定的文件路径内的资源,可以使用查询字符串传入任意参数,可选项

  • 片段标识符
    使用片段标识符通常可标记出已获取资源中的子资源(文档内的某个位置)。但在RFC中没有明确规定其使用方法,可选项
    RFC(Request for Comments,征求修正意见书): 用于制定HTTP协议技术标准的文档。
    通常,应用程序会遵照RFC确定的标准实现。可以说,RFC是互联网的设计文档,要是不按照RFC标准执行,就有可能导致无法通信的状况。比如, 有一台 Web 服务器内的应用服务没有遵照RFC 的标准实现, 那 Web 浏览器就很可能无法访问这台服务器了。
    由于不遵照 RFC 标准实现就无法进行 HTTP 协议通信, 所以基本上客户端和服务器端都会以 RFC 为标准来实现 HTTP 协议。 但也存在某些应用程序因客户端或服务器端的不同, 而未遵照 RFC 标准, 反而将自成一套的“标准”扩展的情况。
    不按 RFC 标准来实现, 当然也不必劳心费力让自己的“标准”符合其他所有的客户端和服务器端。 但设想一下, 如果这款应用程序的使用者非常多, 那会发生什么情况? 不难想象, 其他的客户端或服务器端必然都不得不去配合它。
    实际在互联网上, 已经实现了 HTTP 协议的一些服务器端和客户端里就存在上述情况。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值