一篇文章带你搞懂应用层(万维网篇)

每个应用层协议都是为了解决某一类应用问题,而问题的解决又往往是通过位于不同主机中的多个应用进程之间的通信和协同工作来完成的。应用层的具体内容就是规定应用进程在通信时所遵循的协议.应用层的许多协议都是基于客户服务器方式。客户(client)和服务器(server)都是指通信中所涉及的两个应用进程。客户服务器方式所描述的是进程之间服务和被服务的关系。客户是服务请求方,服务器是服务提供方。 本文我们将详细讨论应用层相关的内容。

1 域名系统 DNS

1.1 域名系统概述

许多应用层软件经常直接使用域名系统 DNS (Domain Name System),但计算机的用户只是间接而不是直接使用域名系统。 互联网采用层次结构的命名树作为主机的名字,并使用分布式的域名系统 DNS。名字到 IP 地址的解析是由若干个域名服务器程序完成的。域名服务器程序在专设的结点上运行,运行该程序的机器称为域名服务器。

互联网采用了层次树状结构的命名方法。任何一个连接在互联网上的主机或路由器,都有一个唯一的层次结构的名字,即域名。域名的结构由标号序列组成,各标号之间用点隔开:
… . 三 级 域 名 . 二 级 域 名 . 顶 级 域 名 … . 三级域名 . 二级域名 . 顶级域名 ...
各标号分别代表不同级别的域名。

域名只是个逻辑概念,并不代表计算机所在的物理地点。变长的域名和使用有助记忆的字符串,是为了便于人来使用。而 IP 地址是定长的 32 位二进制数字则非常便于机器进行处理。域名中的“点”和点分十进制 IP 地址中的“点”并无一一对应的关系。点分十进制 IP 地址中一定是包含三个“点”,但每一个域名中“点”的数目则不一定正好是三个。

1.2 互联网的域名结构

常见的顶级域名:

  • 国家顶级域名 nTLD
    • .cn 表示中国,
    • .us 表示美国,
    • .uk 表示英国,等等。
  • 通用顶级域名 gTLD,最早的顶级域名是:
    • .com(公司和企业)
    • .net(网络服务机构
    • .org(非赢利性组织)
    • .edu(美国专用的教育机构)
    • .gov(美国专用的政府部门)
    • .mil(美国专用的军事部门)
    • .int(国际组织)
  • 基础结构域名 (infrastructure domain),这种顶级域名只有一个,即 arpa,用于反向域名解析,因此又称为反向域名。
    • .aero (航空运输企业)
    • .biz(公司和企业)
    • .cat(加泰隆人的语言和文化团体)
    • .coop(合作团体)
    • .info(各种情况)
    • .jobs(人力资源管理者)
    • .mobi(移动产品与服务的用户和提供者)
    • .museum (博物馆)
    • .name(个人)
    • .pro(有证书的专业人员)
    • .travel(旅游业)

互联网的域名空间

1.3 域名服务器

一个服务器所负责管辖的(或有权限的)范围叫做区 (zone)。各单位根据具体情况来划分自己管辖范围的区。但在一个区中的所有节点必须是能够连通的。每一个区设置相应的权限域名服务器,用来保存该区中的所有主机的域名到 IP 地址的映射。DNS 服务器的管辖范围不是以“域”为单位,而是以“区”为单位。

区的不同划分方法举例

树状结构的 DNS 域名服务器

根域名服务器

根域名服务器是最高层次的域名服务器,也是最重要的域名服务器。所有的根域名服务器都知道所有的顶级域名服务器的域名和 IP 地址。不管是哪一个本地域名服务器,若要对互联网上任何一个域名进行解析,只要自己无法解析,就首先求助于根域名服务器。在互联网上共有 13 个不同 IP 地址的根域名服务器,它们的名字是用一个英文字母命名,从 a 一直到 m(前 13 个字母)。
根域名服务器共有 13 套装置,不是 13 个机器。这些根域名服务器相应的域名分别是:

  • a.rootservers.net
  • b.rootservers.net
  • m.rootservers.net

到2016年2月,全世界已经在 588 个地点安装了根域名服务器,使世界上大部分 DNS 域名服务器都能就近找到一个根域名服务器。 根域名服务器并不直接把域名直接转换成 IP 地址。 在使用迭代查询时,根域名服务器把下一步应当找 的顶级域名服务器的 IP 地址告诉本地域名服务器。

顶级域名服务器

顶级域名服务器(即 TLD 服务器)负责管理在该顶级域名服务器注册的所有二级域名。当收到 DNS 查询请求时,就给出相应的回答(可能是最后的结果,也可能是下一步应当找的域名服务器的 IP 地址)。

权限域名服务器

负责一个区的域名服务器。当一个权限域名服务器还不能给出最后的查询回答时,就会告诉发出查询请求的 DNS 客户,下一步应当找另外哪一个权限域名服务器。

本地域名服务器

本地域名服务器对域名系统非常重要。当一个主机发出 DNS 查询请求时,这个查询请求报文就发送给本地域名服务器。每一个互联网服务提供者 ISP,或一个大学,甚至一个大学里的系,都可以拥有一个本地域名服务器,这种域名服务器有时也称为默认域名服务器。

提高域名服务器的可靠性

DNS 域名服务器都把数据复制到几个域名服务器来保存,其中的一个是主域名服务器,其他的是辅助域名服务器。当主域名服务器出故障时,辅助域名服务器可以保证 DNS 的查询工作不会中断。主域名服务器把域名映射数据定期复制到辅助域名服务器中,而更改数据只能在主域名服务器中进行。这样就保证了数据的一致性。

域名的解析过程

本地域名服务器向根域名服务器的查询通常是采用迭代查询。当根域名服务器收到本地域名服务器的迭代查询请求报文时,要么给出所要查询的 IP 地址,要么告诉本地域名服务器:“你下一步应当向哪一个域名服务器进行查询”。然后让本地域名服务器进行后续的查询。本地域名服务器向根域名服务器的查询也可采用迭代查询。

迭代查询举例

主机向本地域名服务器的查询一般都是采用递归查询。如果主机所询问的本地域名服务器不知道被查询域名的 IP 地址,那么本地域名服务器就以 DNS 客户的身份,向其他根域名服务器继续发出查询请求报文。

递归查询举例

名字的高速缓存

想想看这里是不是与操作系统中的快表、组成原理中的cache有些相似。

每个域名服务器都维护一个高速缓存,存放最近用过的名字以及从何处获得名字映射信息的记录。可大大减轻根域名服务器的负荷,使互联网上的 DNS 查询请求和回答报文的数量大为减少。

为保持高速缓存中的内容正确,域名服务器应为每项内容设置计时器,并处理超过合理时间的项(例如,每个项目只存放两天)。当权限域名服务器回答一个查询请求时,在响应中都指明绑定有效存在的时间值。增加此时间值可减少网络开销,而减少此时间值可提高域名转换的准确性。

2 文件传送协议

整体拷贝

  • FTP
  • TFTP
    联机访问
  • NFS

2.1 FTP 概述

网络环境中的一项基本应用就是将文件从一台计算机中复制到另一台可能相距很远的计算机中。初看起来,在两个主机之间传送文件是很简单的事情。其实这往往非常困难。原因是众多的计算机厂商研制出的文件系统多达数百种,且差别很大。

所以说文件传输的难点就是文件组织形式不固定,难以解决/

FTP 的特点

FTP 屏蔽了各计算机系统的细节,因而适合于在异构网络中任意计算机之间传送文件。FTP 提供交互式的访问,允许客户指明文件的类型与格式,并允许文件具有存取权限。文件传送协议 FTP (File Transfer Protocol) 是互联网上使用得最广泛的文件传送协议。

FTP 的基本工作原理

FTP 的主要功能是减少或消除在不同操作系统下处理文件的不兼容性。文件传送协议 FTP 只提供文件传送的一些基本的服务,它使用 TCP 可靠的运输服务

2.2 FTP 的基本工作原理

FTP 使用客户服务器方式。一个 FTP 服务器进程可同时为多个客户进程提供服务。FTP 的服务器进程由两大部分组成:一个主进程,负责接受新的请求;另外有若干个从属进程,负责处理单个请求

主进程的工作步骤
  1. 打开熟知端口(端口号为 21),使客户进程能够连接上。
  2. 等待客户进程发出连接请求。(主进程等待)
  3. 启动从属进程来处理客户进程发来的请求。从属进程对客户进程的请求处理完毕后即终止,但从属进程在运行期间根据需要还可能创建其他一些子进程。
  4. 回到等待状态,继续接受其他客户进程发来的请求。主进程与从属进程的处理是并发地进行。
两个连接

控制连接在整个会话期间一直保持打开,FTP 客户发出的传送请求通过控制连接发送给服务器端的控制进程,但控制连接不用来传送文件。

实际用于传输文件的是“数据连接”。服务器端的控制进程在接收到 FTP 客户发送来的文件传输请求后就创建“数据传送进程”和“数据连接”,用来连接客户端和服务器端的数据传送进程。数据传送进程实际完成文件的传送,在传送完毕后关闭“数据传送连接”并结束运行。

NFS 采用另一种思路

NFS 允许应用进程打开一个远地文件,并能在该文件的某一个特定的位置上开始读写数据。NFS 可使用户只复制一个大文件中的一个很小的片段,而不需要复制整个大文件。例如,计算机 A 的 NFS 客户软件,把要添加的数据和在文件后面写数据的请求一起发送到远地的计算机 B 的 NFS 服务器。NFS 服务器更新文件后返回应答信息。NFS 在网络上传送的只是少量的修改数据。

2.3 简单文件传送协议 TFTP

  • TFTP (Trivial File Transfer Protocol) 是一个很小且易于实现的文件传送协议。
  • TFTP 使用客户服务器方式和使用 UDP 数据报,因此 TFTP 需要有自己的差错改正措施。
  • TFTP 没有庞大的命令集,没有列目录的功能,也不能对用户进行身份鉴别。
  • TFTP 只支持文件传输而不支持交互。
TFTP 的主要特点
  1. 每次传送的数据 PDU 中有 512 字节的数据,但最后一次可不足 512 字节。
  2. 数据 PDU 也称为文件块 (block),每个块按序编号,从 1 开始。
  3. 支持 ASCII 码或二进制传送。
  4. 可对文件进行读或写。
  5. 使用很简单的首部。
TFTP 的工作很像停止等待协议
  • 发送完一个文件块后就等待对方的确认,确认时应指明所确认的块编号。
  • 发完数据后在规定时间内收不到确认就要重发数据 PDU。
  • 发送确认 PDU 的一方若在规定时间内收不到下一个文件块,也要重发确认 PDU。这样就可保证文件的传送不致因某一个数据报的丢失而告失败。
  • 发送完一个文件块后就等待对方的确认,确认时应指明所确认的块编号。
  • 发完数据后在规定时间内收不到确认就要重发数据 PDU。
  • 发送确认 PDU 的一方若在规定时间内收不到下一个文件块,也要重发确认 PDU。这样就可保证文件的传送不致因某一个数据报的丢失而告失败。

3 远程终端协议 TELNET

TELNET 是一个简单的远程终端协议,也是互联网的正式标准。
用户用 TELNET 就可在其所在地通过 TCP 连接注册(即登录)到远地的另一个主机上(使用主机名或 IP 地址)。
TELNET 能将用户的击键传到远地主机,同时也能将远地主机的输出通过 TCP 连接返回到用户屏幕。这种服务是透明的,因为用户感觉到好像键盘和显示器是直接连在远地主机上。

客户/服务器方式
现在由于 PC 的功能越来越强,用户已较少使用 TELNET 了。TELNET 也使用客户服务器方式。在本地系统运行 TELNET 客户进程,而在远地主机则运行 TELNET 服务器进程。和 FTP 的情况相似,服务器中的主进程等待新的请求,并产生从属进程来处理每一个连接。 TELNET 使用网络虚拟终端 NVT 格式 。

NVT 应用实例

网络虚拟终端 NVT 格式

客户软件把用户的击键和命令转换成 NVT 格式,并送交服务器。
服务器软件把收到的数据和命令,从 NVT 格式转换成远地系统所需的格式。向用户返回数据时,服务器把远地系统的格式转换为 NVT 格式,本地客户再从 NVT 格式转换到本地系统所需的格式。

4 万维网 WWW

4.1 万维网概述

万维网 WWW (World Wide Web) 并非某种特殊的计算机网络。万维网是一个大规模的、联机式的信息储藏所。万维网用链接的方法能非常方便地从互联网上的一个站点访问另一个站点,从而主动地按需获取丰富的信息。这种访问方式称为“链接”。

通俗的来说万维网的使用就是我们通过游览器进行网络的通信,得到的是网页及其其他的数据。

万维网实例

超媒体与超文本

万维网是分布式超媒体 (hypermedia) 系统,它是超文本 (hypertext) 系统的扩充。一个超文本由多个信息源链接而成。利用一个链接可使用户找到另一个文档。这些文档可以位于世界上任何一个接在互联网上的超文本系统中。超文本是万维网的基础。

超媒体与超文本的区别是文档内容不同。超文本文档仅包含文本信息,而超媒体文档还包含其他表示方式的信息,如图形、图像、声音、动画,甚至活动视频图像。

万维网的工作方式

万维网以客户服务器方式工作。浏览器就是在用户计算机上的万维网客户程序。万维网文档所驻留的计算机则运行服务器程序,因此这个计算机也称为万维网服务器。客户程序向服务器程序发出请求,服务器程序向客户程序送回客户所要的万维网文档。在一个客户程序主窗口上显示出的万维网文档称为页面 (page)。

万维网必须解决的问题
  1. 怎样标志分布在整个互联网上的万维网文档?
    使用统一资源定位符 URL (Uniform Resource Locator) 来标志万维网上的各种文档。使每一个文档在整个互联网的范围内具有唯一的标识符 URL。

  2. 用何协议实现万维网上各种超链的链接?
    在万维网客户程序与万维网服务器程序之间进行交互所使用的协议,是超文本传送协议 HTTP (HyperText Transfer Protocol)。- HTTP 是一个应用层协议,它使用 TCP 连接进行可靠的传送。

  3. 怎样使各种万维网文档都能在互联网上的各种计算机上显示出来,同时使用户清楚地知道在什么地方存在着超链?
    超文本标记语言 HTML (HyperText Markup Language) 使得万维网页面的设计者可以很方便地用一个超链从本页面的某处链接到互联网上的任何一个万维网页面,并且能够在自己的计算机屏幕上将这些页面显示出来。

  4. 怎样使用户能够很方便地找到所需的信息?
    为了在万维网上方便地查找信息,用户可使用各种的搜索工具(即搜索引擎)。

4.2 统一资源定位符 URL

  1. URL的格式
    资源定位符 URL 是对互联网资源的位置和访问方法的一种简洁表示。URL 给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。URL 相当于一个文件名在网络范围的扩展。因此 URL 是与互联网相连的机器上的任何可访问对象的一个指针。 由以冒号隔开的两大部分组成,并且在 URL 中的字符对大写或小写没有要求。URL 的一般形式是:

万维网实例

现在有些浏览器为了方便用户,在输入URL时,可以把最前面的“http://”甚至把主机名最前面的“www”省略,然后浏览器替用户把省略的字符添上。

例如,用户只要键入ctrip.com,浏览器就自动把未键入的字符补齐,变成http://www.ctrip.com。

4.3 超文本传送协议 HTTP

HTTP 的操作过程

为了使超文本的链接能够高效率地完成,需要用 HTTP 协议来传送一切必须的信息。从层次的角度看,HTTP 是面向事务的(transaction-oriented)应用层协议,它是万维网上能够可靠地交换文件(包括文本、声音、图像等各种多媒体文件)的重要基础。

HTTP 的操作过程

用户点击 URL http://www.tsinghua.edu.cn/chn/yxsz/index.htm后所发生的事件

  1. 浏览器分析超链指向页面的 URL。
  2. 浏览器向 DNS 请求解析 www.tsinghua.edu.cn 的 IP 地址。
  3. 域名系统 DNS 解析出清华大学服务器的 IP 地址。
  4. 浏览器与服务器建立 TCP 连接。
  5. 浏览器发出取文件命令:GET /chn/yxsz/index.htm。
  6. 服务器给出响应,把文件 index.htm 发给浏览器。
  7. TCP 连接释放。
  8. 浏览器显示“清华大学院系设置”文件 index.htm 中的所有文本。
HTTP 的主要特点
  • HTTP 是面向事务的客户服务器协议。
  • HTTP 1.0 协议是无状态的 (stateless)。
  • HTTP 协议本身也是无连接的,虽然它使用了面向连接的 TCP 向上提供的服务。
请求一个万维网文档所需的时间

请求一个万维网文档所需的时间

每次的数据传输度需要进行建立连接与释放连接的过程,为了提高传输的效率,提出了以下几种方案:不释放连接、流水操作、代理服务器。

不释放连接

HTTP/1.0 协议每次传完一个万维网文档后会释放连接,故每请求一个文档需要2×RTT的开销。万维网服务器在发送响应后仍然在一段时间内保持这条连接,使同一个客户(浏览器)和该服务器可以继续在这条连接上传送后续的 HTTP 请求报文和响应报文。这并不局限于传送同一个页面上链接的文档,而是只要这些文档都在同一个服务器上就行。目前一些流行的浏览器(例如,IE 6.0)的默认设置就是使用 HTTP/1.1。

流水与非流水
  • 非流水线方式:客户在收到前一个响应后才能发出下一个请求。这使得客户每访问一次对象都只需要一个 RTT 时间。但服务器在发送完一个对象后,其 TCP 连接就处于空闲状态,浪费了服务器资源。

  • 流水线方式:客户在收到 HTTP 的响应报文之前就能够接着发送新的请求报文。一个接一个的请求报文到达服务器后,服务器就可连续发回响应报文。使用流水线方式时,客户访问所有对象只需要花费一个 RTT时间,使 TCP 连接中的空闲时间减少,提高了下载文档效率。

代理服务器

代理服务器 (proxy server) 又称为万维网高速缓存 (Web cache),它代表浏览器发出 HTTP 请求。万维网高速缓存把最近的一些请求和响应暂存在本地磁盘中。当与暂时存放的请求相同的新请求到达时,万维网高速缓存就把暂存的响应发送出去,而不需要按 URL 的地址再去互联网访问该资源。代理服务器既是一个服务器,有时也是一个客户。

HTTP 报文

HTTP 有两类报文:

  • 请求报文——从客户向服务器发送请求报文。
  • 响应报文——从服务器到客户的回答。

由于 HTTP 是面向正文的 (text-oriented),因此在报文中的每一个字段都是一些 ASCII 码串,因而每个字段的长度都是不确定的。

报文格式

报文由三个部分组成,即开始行、首部行和实体主体。
在请求报文中,开始行就是请求行。

  • “方法”是面向对象技术中使用的专门名词。所谓“方法”就是对所请求的对象进行的操作,因此这些方法实际上也就是一些命令。因此,请求报文的类型是由它所采用的方法决定的。
  • “URL”是所请求的资源的 URL。
  • “版本”是 HTTP 的版本。

请求报文的例子:
GET /dir/index.htm HTTP/1.1
Host: www.xyz.edu.cn
Connection: close
User-Agent: Mozilla/5.0
Accept-Language: cn
(空行)

  • 请求index.htm文档(未给出主机域名)
  • 主机域名为www.xyz.edu.cn
  • 发完文档后关闭
  • 用户代理使用火狐浏览器
  • 优先获得中文版文档
  • 没有实体主题

响应报文的开始行是状态行。

  • 状态行包括三项内容,即 HTTP 的版本,状态码,以及解释状态码的简单短语。

响应报文的例子:

  • HTTP/1.1 202 Accepted
  • HTTP/1.1 400 Bad Request
  • HTTP/1.1 404 Not Found
  • HTTP/1.1 301 Moved Permanently Location: http://www.xyz.edu/ee/index.html
cookie

HTTP无状态,服务器无法通过HTTP了解客户的状态变化和访问历史。

  • 使用 Cookie ,可以在服务器和客户之间传递状态信息
  • 使用 Cookie 的网站服务器为用户产生一个唯一的识别码
  • 服务器利用Set-Cookie字段告知客户,如:
    • Set-Cookie: 31d496e407aad42
  • 客户在每次请求中利用Cookie字段告诉服务器自己的识别码,如:
    • Cookie: 31d496e407aad42
  • 服务器利用此识别码,跟踪该用户在该网站的活动。
    • Cookie不会携带病毒,但涉及隐私,可对Cookie的允许程度其进行设置。

4.4 万维网的文档

4.4.1 超文本标记语言 HTML

超文本标记语言 HTML(HyperText Markup Language) 中的 Markup 的意思就是“设置标记”。

  • HTML 定义了许多用于排版的命令(即标签)。
  • HTML 把各种标签嵌入到万维网的页面中。这样就构成了所谓的 HTML 文档。HTML 文档是一种可以用任何文本编辑器创建的 ASCII 码文件。
  • 仅当 HTML 文档是以 .html 或 .htm 为后缀时,浏览器才对此文档的各种标签进行解释。

如 HTML 文档改换以 .txt 为其后缀,则 HTML 解释程序就不对标签进行解释,而浏览器只能看见原来的文本文件。当浏览器从服务器读取 HTML 文档后,就按照 HTML 文档中的各种标签,根据浏览器所使用的显示器尺寸和分辨率大小,重新排版并恢复出所读取的页面。

两种不同的链接

HTML还规定了链接的设置方法。每个链接都有一个起点和终点。

  • 远程链接:超链的终点是其他网点上的页面。
  • 本地链接:超链指向本计算机中的某个文件。
XML

XML (Extensible Markup Language)是可扩展标记语言,它和HTML很相似。但XML的设计宗旨是传输数据,而不是显示数据(HTML是为了在浏览器上显示数据)。XML 不是要替换 HTML,而是对 HTML 的补充。

XHTML

XHTML (Extensible HTML) 是可扩展超文本标记语言,它与 HTML 4.01 几乎是相同的。但 XHTML 是更严格的 HTML 版本,也是一个 W3C 标准(2000年1月),是作为一种 XML 应用被重新定义的 HTML,并将逐渐取代 HTML。新的浏览器都支持 XHTML。

CSS

CSS (Cascading Style Sheets) 是层叠样式表,它是一种样式表语言,用于为 HTML 文档定义布局。CSS 与 HTML 的区别就是:HTML 用于结构化内容,而 CSS 则用于格式化结构化的内容。

4.4.2 动态万维网文档

静态文档是指该文档创作完毕后就存放在万维网服务器中,在被用户浏览的过程中,内容不会改变。 动态文档是指文档的内容是在浏览器访问万维网服务器时才由应用程序动态创建。动态文档和静态文档之间的主要差别体现在服务器一端。这主要是文档内容的生成方法不同。而从浏览器的角度看,这两种文档并没有区别。

  • (1) 应增加另一个应用程序,以处理浏览器发来的数据,并创建动态文档。
  • (2) 应增加一个机制,用来使万维网服务器把浏览器发来的数据传送给这个应用程序,然后万维网服务器能够解释这个应用程序的输出,并向浏览器返回 HTML 文档。

动态万维网文档

通用网关接口 CGI

CGI (Common Gateway Interface) 是一种标准,它定义了动态文档应如何创建,输入数据应如何提供给应用程序,以及输出结果应如何使用。万维网服务器与 CGI 的通信遵循 CGI 标准。

  • “通用”:CGI 标准所定义的规则对其他任何语言都是通用的。
  • “网关”:CGI 程序的作用像网关。
  • “接口”:有一些已定义好的变量和调用等可供其他 CGI 程序使用。
4.4.3 活动万维网文档

浏览器屏幕的连续刷新

  • 服务器推送:把所有工作都交给服务器。
  • 活动文档:把所有工作都交给浏览器端。

每当浏览器请求一个活动文档时,服务器就返回一段程序副本在浏览器端运行。活动文档程序可与用户直接交互,并可连续地改变屏幕显示。由于活动文档技术不需要服务器的连续更新传送,对网络带宽的要求也不会太高。

活动万维网文档

  • 8
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值