第一章 了解Web基网络基础
1.1使用HTTP协议访问Web
根据web浏览器地址栏中指定的URL,web浏览器从服务器获取
文件资源(resourse)等信息,从而显示出web页面。像这种通过发送请求获取服务器资源的web浏览器等,都可以称为
客户端(client)。
web使用一种名为
HTTP(HyperText Transfer Protocol,超文本传输协议)的协议作为规范,完成从客户端到服务器端的一系列运作流程。协议是指规则的制定,可以说Web是建立在HTTP协议上通信的。
1.2 HTTP的诞生
诞生于
1989年3月,
最初的设计理念是:
借助多文档相互关联形成的超文本(HyperText),连成可相互参阅的WWW(World Wide Web,万维网)
现在已经提出了3项WWW构建技术:
(1)把SGML(Generalized Markup Language,标准通用标记语言)作为页面的文本标记语言的HTML(HyperText Markup Language,超文本标记语言);
(2)作为文档传递协议的HTTP
(3)制定文档所在地址的URL(Uniform Resource Locator,统一资源定位符)
www这一名称,是web浏览器当年用来浏览超文本的客户端应用程序时的名称。现在则用来表示这一系列的集合,可简称我Web。
1.3网络基础 TCP/IP
通常使用的网络(包括互联网)是在TCP/IP协议族的基础上运作的。而HTTP属于它内部的一个子集
计算机与网络设备要相互通信,双方就必须基于相同的方法。比如,如何探测到通信目标,由哪一边先发起通信、使用哪种语言进行通信、怎样结束通信等规则。这样的规则就称位协议(protocol)
把与互联网相关协议集合起来总称为TCP/IP
TCP/IP协议族里最重要的一点就是分层。按层次分为以下4层:
应用层、传输层、网络层和数据链路层
分层的好处就是便于改变。
应用层:
应用层决定了向用户提供应用服务时的通信活动。
TCP/IP协议族内预存了各类通用的应用服务。比如,FTP(File Transfer Protocol,文本传输协议)和DNS(Domain Name System,域名系统)服务就是其中两类
传输层:
传输层对上层应用层,提供处于网络连接中的两台计算机之间的数据传输。
在传输层有两个性质不同的协议:TCP(Transmission Control Protocol,传输控制协议)和UDP(User Data Protocol,用户数据报协议)
网络层(有名网络互联层):
网络层用来处理在网络上流动的数据包。数据包是网络传输的徐晓的数据单位。该层规定了通过怎样的路径(所谓的传输路线)到达对方的计算机,并把数据包传送给对方
与对方计算机之间通过多台计算机或网络设备进行传输时,网络层所起的作用就是在众多选项内选择一条传输路线。
链路层(又名数据链路层,网络接口层):
用来处理链接网络的硬件部分。包括控制操作系统、硬件的设备驱动、NIC(Network Interface Card,网络适配器,即网卡),以及光纤等物理可见部分。硬件上的范畴均在链路层的作用范围内
利用TCP/IP协议族进行网络通信使,会通过分层顺序与对方进行通信。发送端从应用层往下走,接收端则往应用层上走。
发送端在层与层之间传输数据时,每经过一层时必定会被打上一个该层所属的首部信息。反之,接收端在层与层之间传递数据时,每经过一层时会把对应的首部消去。
这种把数据信息包装起来的方法称为
封装(encapsulate)
1.4 与HTTP关系密切的协议:IP、TCP和DNS
1.4.1 负责传输的IP协议
IP(Internet Protocol)国际协议位于网络层,几乎所有使用网络的系统都会用到IP协议。TCP/IP协议中IP值得就是网际协议,协议名称中占据了一半的位置,其重要性可见一斑。
IP协议的作用就是把各种数据包传送给对方。而要保证确实传送到对方那里,则需要满足各种条件。其中最重要的两个条件是IP地址和
MAC地址(Media Access Control Address)。
IP地址指明了节点被分配的地址,MAC地址是指网卡所属的固定地址。IP地址可以和MAC地址进行配对。IP地址可变换,但是MAC地址基本上不会更改。
使用ARP协议凭借MAC地址进行通信
IP间的通信依赖MAC地址。在网络上,通信双方在同一局域网(LAN)内的情况是很少见的,通常是经过多台计算机和网络设备中转才能连接到对方。而在进行中转时,会利用下一站中转设备的MAC地址来搜索下一个中转目标。这时,会采用
ARP协议(Address Resolution Protocol)。ARP是一种用以解析地址的协议,根据通信放的IP地址就可以反查处对应的MAC地址。
没有人能够全面掌握互联网中的传输状况
在到达通信目标前的中转过程中,那些计算机和路由器等网络设备只能获悉很粗略的传输路线。
这种机制称为
路由选择(routing)
1.4.2 确保可靠性的TCP协议
TCP位于传输层,提供可靠的字节流服务
所谓字节流服务(Byte Stream Service)是指,为了方便传输,将大块数据分割成以报文段(segment)为单位的数据包进行管理。而可靠的传输服务是指,能够百数据精确可靠地传给对方。总而言之,TCP协议为了更容易传送大数据才把数据分割,而且TCP协议能够确认数据最终是否送达对方。
确保数据能达到目标
TCP协议采取
三次握手(three-way handshaking)策略。用TCP协议把数据包送出去后,TCP不会对传送后的情况置之不理,他一定会向对方确认是否送达成功。握手过程中使用了TCP的标志——
SYN(synchronize)和
ACK(acknowledgement)
发送端首先发送一个带SYN标志的数据包给对方。接收端收到后,回传一个带有SYN/ACK标志的数据包以示传达确认信息。最后,发送端在回传一个带有ACK标志的数据包,代表“握手结束”。
若在握手过程中某个阶段莫名中断,TCP协议会再次以相同的顺序发送相同的数据包
1.5 负责域名解析的DNS服务
DNS(Domain Name System)服务是和HTTP协议一样位于应用层的协议。他提供域名到IP地址之间的解析服务。
计算机既可以被赋予IP地址,也可以被赋予主机名和域名,比如www.hacker.ip
用户通常使用主机名或者域名来访问对方的计算机,而不是直接通过IP地址访问。因为与IP地址的一组纯数字相比,用字母配合数字的表示形式来指定计算机名更符合人类的记忆习惯
但是要让计算机去理解名称,就相对困难了。
为了解决上述问题,DNS服务应运而生。DNS协议提供通过域名查找IP地址,或者逆向从IP地址反查域名的服务。
1.7 URI和URL
URI(统一资源标识符),URL(Uniform Resource Locator,统一资源定位符)
1.7.1统一资源标识符
URI是Uniform Resource Identifier 的缩写