文章目录
数据链路层
实作一 熟悉 Ethernet 帧结构
使用 Wireshark
任意进行抓包,熟悉 Ethernet
帧的结构,如:目的 MAC
、源 MAC
、类型、字段等。
类型:0800-----帧中是IPv4数据;0806-----ARP帧
后面还有数据部分和一个32位循环冗余校验码。
Question
你会发现Wireshark
展现给我们的帧中没有校验字段,请了解一下原因。
Wireshark 抓包前,在物理层网卡已经去掉了一些之前几层加的东西,比如前导同步码,FCS等等,之后利用校验码CRC校验,正确时才会进行下一步操作,因此,抓包软件抓到的是去掉前导同步码、FCS之外的数据,没有校验字段。
实作二 了解子网内/外通信时的 MAC 地址
ping
你旁边的计算机(同一子网),同时用Wireshark
抓这些包(可使用icmp
关键字进行过滤以利于分析),记录一下发出帧的目的 MAC 地址以及返回帧的源 MAC 地址是多少?这个 MAC 地址是谁的? 然后
发出帧的目的MAC地址和返回帧的MAC地址相同,且都是我ping的那台主机的MAC地址。- 然后
ping 14.215.177.39
(或者本子网外的主机都可以),同时用Wireshark
抓这些包(可icmp
过滤),记录一下发出帧的目的MAC 地址以及返回帧的源MAC 地址是多少?这个 MAC 地址是谁的?
发出帧的目的MAC 地址以及返回帧的源MAC 地址是网关的地址
3. 再次 ping www.cqjtu.edu.cn
(或者本子网外的主机都可以),同时用 Wireshark
抓这些包(可 icmp
过滤),记录一下发出帧的目的 MAC地址以及返回帧的源MAC 地址又是多少?这个 MAC 地址又是谁的?
发出帧的目的MAC 地址以及返回帧的源MAC 地址是网关的地址
问题
通过以上的实验,你会发现:
- 访问本子网的计算机时,目的 MAC 就是该主机的
- 访问非本子网的计算机时,目的 MAC 是网关的
请问原因是什么?
因为当访问本子网的计算机时,数据不需要出本子网,所以目的MAC地址就是该主机的;而当访问非子网的计算机时有两个不同通信子网的主机之间需要通信,数据包就需要离开本通信子网,这里就涉及到数据包在两个通信子网的传输,传输数据要离开本通信子网,就一定要经过网关,所以目的MAC是网关的。
实作三 掌握 ARP 解析过程
-
为防止干扰,先使用
arp -d *
命令清空arp
缓存
注意:以管理员身份运行 -
ping
你旁边的计算机(同一子网),同时用Wireshark
抓这些包(可arp
过滤),查看 ARP 请求的格式以及请求的内容,注意观察该请求的目的 MAC地址是什么。再查看一下该请求的回应,注意观察该回应的源 MAC 和目的 MAC 地址是什么。
初次请求时是广播的,回应的源 MAC 地址是ping的那台主机(34:4b:50:00:00:00
);回应的目的 MAC 地址是本机(dc:8b:28:17:a2:dc
) -
再次使用
arp -d *
命令清空arp
缓存
-
然后
ping 14.215.177.39
(或者本子网外的主机都可以),同时用Wireshark
抓这些包(可arp
过滤)。查看这次 ARP 请求的是什么,注意观察该请求是谁在回应。
这次请求的目的MAC地址是网关(06:8b:dc:02:58:41
);回应的MAC源地址是网关(06:8b:dc:02:58:41
)
问题
通过以上的实验,你应该会发现,
ARP 请求都是使用广播方式发送的
- 如果访问的是本子网的 IP,那么 ARP 解析将直接得到该 IP 对应的 MAC;
- 如果访问的非本子网的IP, 那么 ARP 解析将得到网关的 MAC。
请问为什么?
因为当访问本子网的计算机时,数据不需要出本子网,所以ARP 解析将直接得到该 IP 对应的 MAC;而当访问非子网的计算机时有两个不同通信子网的主机之间需要通信,数据包就需要离开本通信子网,这里就涉及到数据包在两个通信子网的传输,传输数据要离开本通信子网,就一定要经过网关,所以 ARP 解析将得到网关的 MAC。
网络层
实作一 熟悉 IP 包结构
使用 Wireshark
任意进行抓包(可用 ip 过滤),熟悉 IP 包的结构,如:版本、头部长度、总长度、TTL、协议类型等字段。
问题
为提高效率,我们应该让 IP 的头部尽可能的精简。但在如此珍贵的 IP 头部你会发现既有头部长度字段,也有总长度字段。请问为什么?
头部长度是来表明该包头部的长度,可以使得接收端计算出报头在何处结束及从何处开始读数据。总长度是为了接收方的网络层了解到传输的数据包含哪些,如果没有该部分,当数据链路层在传输时,对数据进行了填充,对应的网络层不会把填充的部分给去掉。
实作二 IP 包的分段与重组
根据规定,一个 IP 包最大可以有 64K 字节。但由于 Ethernet 帧的限制,当 IP 包的数据超过 1500 字节时就会被发送方的数据链路层分段,然后在接收方的网络层重组。
缺省的,ping
命令只会向对方发送 32 个字节的数据。我们可以使用 ping 202.202.240.16 -l 2000
命令指定要发送的数据长度。此时使用 Wireshark 抓包(用 ip.addr == 202.202.240.16
进行过滤),了解 IP 包如何进行分段,如:分段标志、偏移量以及每个包的大小等。
上面的包中标识符这部分,例如0x21
等,是用来唯一标识该分组的。
问题
分段与重组是一个耗费资源的操作,特别是当分段由传送路径上的节点即路由器来完成的时候,所以 IPv6 已经不允许分段了。那么 IPv6中,如果路由器遇到了一个大数据包该怎么办?
在IPv6中,路由器只是路由不应该还有其他事务,当路由器遇到了一个大数据包,它会直接丢掉,然后返回“分组太大”,发送端重传。
实作三 考察 TTL 事件
在 IP 包头中有一个 TTL
字段用来限定该包可以在 Internet上传输多少跳(hops),一般该值设置为 64、128等。
在验证性实验部分我们使用了 tracert
命令进行路由追踪。其原理是主动设置 IP 包的 TTL
值,从 1 开始逐渐增加,直至到达最终目的主机。
请使用 tracert www.baidu.com
命令进行追踪,此时使用 Wireshark
抓包(用 icmp
过滤),分析每个发送包的 TTL
是如何进行改变的,从而理解路由追踪原理。
tracert
告诉我们节点是因为网络层的包中设置了生命期,生命期第一次设置为1,经过一个节点,生命期减一,如果此时包没有到达目的地址,返回TTL过期,继续把生命期设置为2(3,4,5…n),重复之前的步骤,直到包能送到目的地址。
从而得知我的计算机与百度服务器之间大概有13跳(13个中间节点)。
问题
在 IPv4 中,TTL
虽然定义为生命期即Time To Live
,但现实中我们都以跳数/节点数进行设置。如果你收到一个包,其TTL
的值为 50,那么可以推断这个包从源点到你之间有多少跳?
当TTL
设置为64时,推断这个包从源点到我之间由64-50=14跳。
传输层
实作一 熟悉 TCP 和 UDP 段结构
用 Wireshark 任意抓包(可用 tcp 过滤),熟悉 TCP 段的结构,如:源端口、目的端口、序列号、确认号、各种标志位等字段。
头部格式 | 含义 |
---|---|
顺序号 | 表明本段内容在字节流中的相对位置,也就是发送方的段的开始位置 |
确认号 | 发送方希望收到的下一字节序号,也是对确认号-1以前所有序号的确认 |
URG | 紧急位,一般为0,当置为1时表示数据段中有紧急数据,一般发送方会立即发送此数据段 |
ACK | 确认位,置1表示有效,一般用于连接请求的第一次握手,第一次握手置0,之后都是1 |
PSH | 推位,表示数据是被推过来的,一般连接请求建立好之后的第一个包此位是1 |
RST | 恢复位,置1时表示此数据段非法,如不正常的连接请求确认 |
SYN | 同步位,一般为0,只有在建立连接的3次握手中的前两次置1 |
FIN | 结束位,置1表示请求断开连接,用于断开连接的4次握手 |
用 Wireshark 任意抓包(可用 udp 过滤),熟悉 UDP 段的结构,如:源端口、目的端口、长度等。
udp是面向非连接的、不可靠的协议,且头部格式较为简单。
问题
由上大家可以看到 UDP 的头部比 TCP 简单得多,但两者都有源和目的端口号。请问源和目的端口号用来干什么?
端口号能标识不同应用程序进程,源和目的端口用来实现不同主机的应用程序进程在传输层的通信。
实作二 分析 TCP 建立和释放连接
- 打开浏览器访问
qige.io
网站,用 Wireshark 抓包(可用tcp
过滤后再使用加上Follow TCP Stream
),不要立即停止 Wireshark 捕获,待页面显示完毕后再多等一段时间使得能够捕获释放连接的包。 - 请在你捕获的包中找到三次握手建立连接的包,并说明为何它们是用于建立连接的,有什么特征。
- 第一次握手时同步位置1,确认位置0,且顺序号为0。发送方发送建立连接请求。
- 第二次握手时同步位置1,确认号置1,且顺序号为0。接收方同样发送建立连接请求,并确认发送方的建立连接请求。
- 第三次握手时同步位置0,确认号置1,顺序号开始增加。发送方确认收到接收方的建立连接请求,三次握手完成,连接建立成功,随后的段就开始真正发送数据,且第一次推位为1。
- 请在你捕获的包中找到四次挥手释放连接的包,并说明为何它们是用于释放连接的,有什么特征。
- 第一次挥手发送方发送断开连接请求,结束位为1,确认号为1。
- 第二次挥手接收方同意断开连接请求,确认号为1。
- 第三次挥手接收方发送断开连接请求,结束位为1,确认号为1。
- 第四次挥手发送方同意断开连接请求,确认号为1。
问题一
去掉Follow TCP Stream
,即不跟踪一个 TCP 流,你可能会看到访问qige.io
时我们建立的连接有多个。请思考为什么会有多个连接?作用是什么?
通过建立多个连接,可以实现实现多个用户进行访问,可以达到节省通道使用的作用,提高利用率,因为是属于短连接,一旦数据发送完成后,就会断开连接。但是即使断开连接,缓存依旧存在。
问题二
我们上面提到了释放连接需要四次挥手,有时你可能会抓到只有三次挥手。原因是什么?
因为第二次挥手和第三次挥手合并了,接收方在确认请求方的断开连接请求的同时也发送了自己的断开连接请求,实质上还是有四次挥手。
应用层
应用层的协议非常的多,我们只对 DNS 和 HTTP 进行相关的分析。
实作一 了解DNS解析
-
先使用
ipconfig /flushdns
命令清除缓存,再使用nslookup qige.io
命令进行解析,同时用Wireshark 任意抓包(可用dns
过滤)。
-
你应该可以看到当前计算机使用 UDP,向默认的 DNS 服务器的 53号端口发出了查询请求,而 DNS 服务器的 53 号端口返回了结果。
-
事务 ID:DNS 报文的 ID 标识。对于请求报文和其对应的应答报文,该字段的值是相同的。通过它可以区分 DNS
应答报文是对哪个请求进行响应的。 -
标志:DNS 报文中的标志字段。
-
问题计数:DNS 查询请求的数目。
-
回答资源记录数:DNS响应的数目。
-
权威名称服务器计数:权威名称服务器的数目。
-
附加资源记录数:额外的记录数目(权威名称服务器对应 IP 地址的数目)。
问题
你可能会发现对同一个站点,我们发出的 DNS 解析请求不止一个,思考一下是什么原因?
为了使服务器的负载得到平衡(因为每天访问站点的次数非常多)网站就设有好几个计算机,每一个计算机都运行同样的服务器软件。这些计算机的IP地址不一样,但它们的域名却是相同的。这样,第一个访问该网址的就得到第一个计算机的IP地址,而第二个访问者就得到第二个计算机的IP地址等等。这样可使每一个计算机的负荷不会太大。
实作二 了解HTTP的请求和应答
- 打开浏览器访问
qige.io
网站,用 Wireshark 抓包(可用http 过滤再加上 Follow TCP Stream),不要立即停止 Wireshark 捕获,待页面显示完毕后再多等一段时间以将释放连接的包捕获。 - 请在你捕获的包中找到HTTP 请求包,查看请求使用的什么命令,如:
GET
,POST
。并仔细了解请求的头部有哪些字段及其意义。
更多详细的请参考常用标准请求头子段 - 请在你捕获的包中找到HTTP 应答包,查看应答的代码是什么,如:200, 304, 404 等。并仔细了解应答的头部有哪些字段及其意义。
常见应答代码:
200:请求成功,请求方法为get或post或head或者trace。
201:请求成功并创建一个资源,请求方法为post或put。
202:请求收到但未响应。
204:服务成功处理了请求但是不返回实体内容。
205:服务成功处理了请求但是不返回实体内容且要求请求者重置请求视图。
207:返回消息体为XML。
400:语义错误,服务器无法理解此次请求。无效请求,服务器还没接到该请求,由于前端封装的字段类型有误导致。
401:当前请求需要验证, 即需要类似Authorization 头信息。
403:服务理解请求但是拒绝执行。通常是无权限、黑名单、ip过于频繁访问等原因导致。
404:请求失败,请求资源找不到。类似于脚本未被定义。
405:请求方法不被接受,比如某个接口只能用post请求,但是用了get请求,则会报405。
407:当前请求需要验证,代理服务器必须以Proxy-Authorization 信息头验证。
408:请求超时。表示客户端取消了请求或未能发送一个完整的请求。
413:请求提交的实体数据过大。
414:uri请求过长,这种情况可将get请求改为post请求。
415:请求提交的实体格式不对,比如某个接口只支持XML,提交格式为JSON则会报错。
423:资源被锁定。
429:请求次数过多。
431:请求头字段过大。
451:非法资源。
500:服务器遇到了不知如何处理的情况。主要错误是服务器内部错误,主要为用户权限的问题导致,或者是数据库连接出现了错误。
501:服务器还是不具有请求功能的,而且是没有实施的,可以用来HttpWebRequest指定一个UserAgent来试试的,可以换电脑来测试一下,可以换不同类型浏览器测试。
502:网关错误。可能原因:链接超时、服务器请求链接过多导致服务器无法正常响应。
503:服务器正在维护或者暂停了,或者是cpu占用的频率大导致的。
504:请求超时,表示服务器一直在等请求响应回来但是等不到了。
505:http的版本是不受支持的,需升级浏览器。
507:服务器有内部配置错误。
问题
刷新一次 qige.io 网站的页面同时进行抓包,你会发现不少的 304代码的应答,这是所请求的对象没有更改的意思,让浏览器使用本地缓存的内容即可。那么服务器为什么会回答 304 应答而不是常见的 200 应答?
如果用浏览器刷新,浏览器将不会判断,而是到服务器获取它。如果服务器判断资源没有改变,它将返回304,允许您自己读取本地缓存,而返回200意味着资源已经成功地从服务器获得,具有不同的含义。