I. 协议
信号的传输总要符合一定的协议(protocol)。比如说长城上放狼烟,是因为人们已经预先设定好狼烟这个物理信号代表了“敌人入侵”这一抽象信号。这样一个“狼烟=敌人入侵”就是一个简单的协议。
计算机之间的通信也要遵循不同层次的协议,来实现计算机的通信。
II. TCP/IP 四层模型
TCP/IP是一组协议的代名词,它还包括许多协议,组成了TCP/IP协议簇。TCP/IP协议簇分为四层,IP协议位于协议簇的第二层(网络层),对应OSI的第三层,TCP协议位于协议簇的第三层(传输层),对应OSI的第四层。
TCP/IP通讯协议采用了4层的层级结构,每一层都呼叫它的下一层所提供的网络来完成自己的需求。这4层分别为:
网络互联层:该层负责相同(连接层,局域网内)或不同网络(网络层,不同的局域网间)中计算机之间的通信,包括提供基本的数据封包传送功能,让每一块数据包都能够到达目的主机(但不检查是否被正确接收)。
传输层:在此层中,它提供了节点间的数据传送服务,如传输控制协议(TCP)、用户数据报协议(UDP)等,TCP和UDP给数据包加入传输数据并把它传输到下一层中,这一层负责传送数据。并且确定数据已被送达并接收(TCP/UDP协议所做的)。 通俗来讲,计算机接收到的包(信息),使用端口号来识别究竟是哪个进程需要接收这个信息。
应用层:应用程序间沟通的层,如简单电子邮件传输(SMTP)、文件传输协议(FTP)、网络远程访问协议(Telnet)等。通俗来讲,数据包确定传递给了该进程,但该进程需要进一步的进行识别,要读懂数据需要满足应用层的协议。
参考如下图示:
III. 连接层 & 网络层(link layer & network layer)
在上面介绍网络互联层的时候曾说过,网络互联层负责相同(连接层,局域网内)或不同网络(网络层,不同的局域网间)中计算机之间的通信。那么就不得不介绍一下连接层和网络层的区别了。
下面暗蓝色部分有比喻说明,易于大家理解。
一、连接层(link layer)
同一个局域网内的两台计算机进行通信。
在连接层,信息以帧(frame)为单位传输。所谓的帧,是一段有限的0/1序列。连接层协议的功能就是识别0/1序列中所包含的帧。比如说,根据一定的0/1组合识别出帧的起始和结束。在帧中,打个比喻来介绍的话,有 送信地址(Source, SRC,表示来源) 和 收信地址(Destination, DST,表示目的地),还有能够探测错误的校验序列(Frame Check Sequence,FCS,帧校验)。当然,帧中最重要的最重要是所要传输的数据 (payload)。这些数据往往符合更高层协议,供网络的上层使用。与数据相配套,帧中也有数据的类型(Type)信息。连接层协议不关心数据中到底包含什么。帧就像是一个信封,把数据包裹起来。
以太网(Ethernet)和WiFi是现在最常见的连接层协议。通过连接层协议,我们可以建立局域的以太网或者WiFi局域网,并让位于同一局域网络中的两台计算机通信。
连接层就像是一个社区(局域网)的邮差,他认识社区中的每一户人(计算机)。社区中的每个人都可以将一封信(帧)交给他,让他送给同一社区的另一户人家。
二、网络层(network layer)
不同局域网间的计算机进行通信。
不同的社区(局域网)之间该如何通信呢? 换句话说,如何让WiFi上的一台计算机和以太网上的另一台计算机通信呢?我们需要一个“中间人”。
这个“中间人”必须有以下功能:
1. 能从物理层上在两个网络的接收和发送0/1序列。
2. 能同时理解两种网络的帧格式。
路由器(router)就是为此而产生的“翻译”。一个路由器有多个网卡(NIC,Network Interface Controller),每个NIC可以接入多个网络,并理解相应的连接层协议。在帧经过路由到达另一个网络的时候,路由会读取帧的信息,并改写以发送到 另一个网络。
所以路由器就像是在两个社区都有分支的邮局。一个社区的邮差将信送到本社区的邮局分支,而邮局会通过自己在另一个地区的分支将信转交给另一个社区的邮差手中,并由另一个社区的邮差最终送到目的地。
那么,让WiFi上的一台计算机和以太网上的另一台计算机通信,这个过程究竟是怎样的呢?
整个通信过程如下:
WiFi上的计算机1 -> 路由WiFi接口 -> 路由以太网接口 -> 以太网上的计算机2
(蓝色表示WiFi网络,绿色表示以太网络)
在连接层,我们的一个帧中只能记录SRC(来源)和DST(目的地)两个地址。而上面的过程在网络层中需要经过四个地址 (计算机1,WiFi接口,以太网接口,计算机2)。显然,仅仅靠连接层协议无法满足我们的需要。由于连接层协议开发在先,我们无法改动连接层协议,只能 在连接层的数据(payload),也就是在信纸内部下功夫了。IP协议应运而生。
计算机1,路由器和计算机2都要懂得IP协议。当计算机1写信的时候,会在信纸的开头写 上这封信的出发地址和最终到达地址 (而不是在信封上),而在信封上写上要送往邮局。WiFi网的邮差将信送往邮局。在邮局,信被打开,邮局工作人员看到最终地址,于是将信包装在一个新的信 封中,写上出发地为邮局,到达地为计算机2,并交给以太网的邮差,由以太网的邮差送往计算机2。(IP协议还要求写如诸如校验等信息,交通状况等信息,以保护通信的稳定性。)
在连接层,邮差只负责在本社区送信,所以信封上的地址总是“第一条街第三座房子”或者说“中心十字路口拐角的小房子”这样一些本地人才了解的地址描述,这给邮局的工作带来不便。所以邮局要求,信纸上写的地址必须是一个符合官方规定的“邮编”,也就是IP地址。这个地址为世界上的每一个房子编号(邮编)。当信件送到邮局的时候,邮局根据邮编,就能查到对应的地址描述,从而能顺利改写信封上的信息。
每个邮局一般连接多个社区,而一个社区也可以有多个邮局,分别通往不同的社区。有时候一封信要通过多个邮局转交,才能最终到达目的地,这个过程叫做route。邮局将分离的局域网络连接成了internet,并最终构成了覆盖全球的互联网。
IV. 传输层(transport layer)
上面的数层协议让不同的计算机之间可以通信。但计算机中实际上有许多个进程,每个进程 都可能有通信的需求。
这就好像一所房子里住了好几个人(进程),如何让信精确的送到某个人手里呢?遵照之前相同的逻辑,我们需要在信纸上写上新的信息,比如收信人的姓名,才可能让信送到。所以,传输层就是在信纸的空白上写上新的“收信人”信息。每一所房子会配备一个管理员(传输层协议)。管理员从邮差手中接过信,会根据“收信人”,将信送给房子中的某个人。
传输层协议,比如TCP和UDP,使用端口号(port number)来识别收信人(某个进程)。在写信的时候,我们写上目的地的端口。当信到达目的地的管理员手中,他会根据传输层协议,识别端口号,将信送给不同的人。
TCP和UDP协议是两种不同的传输层协议。TCP协议还有控制网络交通等功能。
一、TCP(Transmission Control Protocol,传输控制协议)
TCP是面向连接的协议,也就是说,在收发数据前,必须和对方建立可靠的连接。一个TCP连接必须要经过三次“对话”才能建立起来,其中的过程非常复杂,只简单的描述下这三次对话的简单过程:
主机A向主机B发出连接请求数据包:“我想给你发数据,可以吗?”,这是第一次对话;主机B向主机A发送 同意连接 和 要求同步(同步就是两台主机一个在发送,一个在接收,协调工作)的数据包:“可以,你什么时候发?”,这是第二次对话;主机A再发出一个数据包确认主机B的要求同步:“我现在就发,你接着吧!”,这是第三次对话。
三次“对话”的目的是使数据包的发送和接收同步,经过三次“对话”之后,主机A才向主机B正式发送数据。
TCP建立连接的过程(三次握手)
01 主机A通过向主机B 发送一个含有同步序列号(SYN)的标志位的数据段给主机B ,向主机B 请求建立连接,通过这个数据段,
主机A告诉主机B 两件事:我想要和你通信;你可以用哪个序列号作为起始数据段来回应我。
02 主机B 收到主机A的请求后,用一个带有确认应答(ACK)和同步序列号(SYN)标志位的数据段响应主机A,也告诉主机A两件事:
我已经收到你的请求了,你可以传输数据了;你要用哪佧序列号作为起始数据段来回应我。
03 主机A收到这个数据段后,再发送一个确认应答(ACK),确认已收到主机B 的数据段:"我已收到回复,我现在要开始传输实际数据了。
三次握手的特点
01 没有应用层的数据。
02 SYN这个标志位只有在TCP产生连接时才会被置1,握手完成后SYN标志位被置0。
TCP断开连接的过程
01 当主机A完成数据传输后,将控制位FIN置1,提出停止TCP连接的请求。
02 主机B收到FIN后对其作出响应,确认这一方向上的TCP连接将关闭,将ACK置1(接收端确认关闭)。
03 由主机B再提出反方向的关闭请求,将FIN置1。
04 主机A对主机B的请求进行确认,将ACK置1(发送端确认关闭)。双方向的关闭结束。
由TCP的三次握手和四次断开可以看出,TCP使用面向连接的通信方式,大大提高了数据通信的可靠性,使发送数据端和接收端在数据正式传输前就有了交互,为数据正式传输打下了可靠的基础。
名词解释
ACK TCP报头的控制位之一,对数据进行确认。确认由目的端发出,用它来告诉发送端这个序列号之前的数据段都收到了。比如,确认号为X,则表示前X-1个数据段都收到了,只有当ACK=1时,确认号才有效,当ACK=0时,确认号无效,这时会要求重传数据,保证数据的完整性。
SYN 同步序列号,TCP建立连接时将这个位置1。
FIN 发送端完成发送任务位,当TCP完成数据传输需要断开时,提出断开连接的一方将这位置1。
二、UDP(User Data Protocol,用户数据报协议)
01 UDP是一个非连接的协议,传输数据之前源端和终端不建立连接,当它想传送时就简单地去抓取来自应用程序的数据,并尽可能快地把它扔到网络上。在发送端,UDP传送数据的速度仅仅是受应用程序生成数据的速度、计算机的能力和传输带宽的限制;在接收端,UDP把每个消息段放在队列中,应用程序每次从队列中读一个消息段。
02 由于传输数据不建立连接,因此也就不需要维护连接状态,包括收发状态等,因此一台服务机可同时向多个客户机传输相同的消息。
03 UDP信息包的标题很短,只有8个字节,相对于TCP的20个字节信息包的额外开销很小。
04 吞吐量不受拥挤控制算法的调节,只受应用软件生成数据的速率、传输带宽、源端和终端主机性能的限制。
05 UDP使用尽最大努力交付,即不保证可靠交付,因此主机不需要维持复杂的链接状态表(这里面有许多参数)。
06 UDP是面向报文的。发送方的UDP对应用程序交下来的报文,在添加首部后就向下交付给IP层。既不拆分,也不合并,而是保留这些报文的边界,因此,应用程序需要选择合适的报文大小。
我们经常使用“ping”命令来测试两台主机之间TCP/IP通信是否正常,其实“ping”命令的原理就是向对方主机发送UDP数据包,然后对方主机确认收到数据包,如果数据包是否到达的消息及时反馈回来,那么网络就是通的。
三、TCP与UDP的区别
01 基于连接与无连接;
02 对系统资源的要求(TCP较多,UDP少);
03 UDP程序结构较简单;
04 流模式与数据报模式 ;
05 TCP保证数据正确性,UDP可能丢包,TCP保证数据顺序,UDP不保证。
V. 应用层(application layer)
包(数据)确定传递给了该进程,但该进程需要进一步的进行识别,要读懂数据需要满足应用层的协议。
通过上面的几层协议,我们已经可以在任意两个人(进程)之间进行通信。然而每个人实际上从事的是不同的行业。有的人是律师,有的人外交官。比如说律师之间的通信,会用严格的律师术语,以免产生纠纷。再比如外交官之间的通信,必须符合一定的外交格式,以免发生外交误会。再比如间谍通过暗号来传递加密信息。应用层协议是对信件内容进一步的用语规范。应用层的协议包括用于Web浏览的HTTP协议,用于传输文件的FTP协议,用于Email的IMAP等等。
VI. Socket
我们经常把Socket翻译为套接字,Socket是在应用层和传输层之间的一个抽象层,它把TCP/IP层复杂的操作抽象为几个简单的接口供应用层调用已实现进程在网络中通信。
实际上Socket是对TCP/IP协议的封装,Socket本身并不是协议,而是一个调用接口(API)。
通过Socket,我们才能使用TCP/IP协议。
有一句比较容易理解的话:“TCP/IP只是一个协议栈,就像操作系统的运行机制一样,必须要具体实现,同时还要提供对外的操作接口。”
而我们平时常用的接口文档实质上就是Socket。
利用Socket建立网络连接的步骤
建立Socket连接至少需要一对套接字,其中一个运行于客户端,称为ClientSocket ,另一个运行于服务器端,称为ServerSocket。套接字之间的连接过程分为三个步骤:服务器监听,客户端请求,连接确认。
01 服务器监听:服务器端套接字并不定位具体的客户端套接字,而是处于等待连接的状态,实时监控网络状态,等待客户端的连接请求。
02 客户端请求:指客户端的套接字提出连接请求,要连接的目标是服务器端的套接字。为此,客户端的套接字必须首先描述它要连接的服务器的套接字,指出服务器端套接字的地址和端口号,然后就向服务器端套接字提出连接请求。
03 连接确认:当服务器端套接字监听到或者说接收到客户端套接字的连接请求时,就响应客户端套接字的请求,建立一个新的线程,把服务器端套接字的描述发给客户端,一旦客户端确认了此描述,双方就正式建立连接。而服务器端套接字继续处于监听状态,继续接收其他客户端套接字的连接请求。