Linux高性能服务器编程总结索引 | 第2章：IP协议详解

Asher Gu

于 2024-08-29 20:58:07 发布

阅读量382

点赞数 15

分类专栏： Linux高性能服务器编程文章标签：服务器 linux tcp/ip

本文链接：https://blog.csdn.net/AsherGu/article/details/141667073

版权

Linux高性能服务器编程专栏收录该内容

2 篇文章 0 订阅

订阅专栏

IP头部信息
IP数据报的路由和转发

1、IP 服务的特点

1、IP 协议是 TCP/IP 协议族的动力，它为上层协议提供无状态、无连接、不可靠的服务

2、无状态是指 IP 通信双方不同步传输数据的状态信息，因此所有 IP 数据报的发送、传输和接收都是相互独立、没有上下文关系的。这种服务最大的缺点是无法处理乱序和重复的 IP 数据报。比如发送端发出出的第 N 个 IP 数据报可能比第 N+1 个 IP 数据报后到达接收端，而同一个 IP 数据报也可能经过不同的路径多次到达接收端
在这两种情况下，接收端的 IP 模块无法检测到乱序和重复，因为这些 IP 数据报之间没有任何上下文关系。接收端的 IP 模块只要收到了完整的 IP 数据报（如果是 IP 分片的话，IP 模块将先执行重组），就将其数据部分（TCP 报文段、UDP 数据报或者 ICMP 报文）上交给上层协议。那么从上层协议来看，这些数据就可能是乱序的、重复的。面向连接的协议，比如 TCP 协议，则能够自己处理乱序的、重复的报文段，它递交给上层协议的内容绝对是有序的、正确的
虽然 IP 数据报头部提供了一个标识字段用以唯一标识一个 IP 数据报，但它被用来处理 IP 分片和重组的，而不是用来指示接收顺序的

无状态服务的优点也很明显：简单、高效。无须为保持通信的状态而分配一些内核资源，也无须每次传输数据时都携带状态信息。在网络协议中，无状态是很常见的，比如 UDP 协议和 HTTP 协议都是无状态协议。以 HTTP 协议为例，一个浏览器的连续两次网页请求之间没有任何关联，它们将被 Web 服务器独立地处理

3、无连接是指 IP 通信双方都不长久地维持对方的任何信息。这样，上层协议每次发送数据的时候，都必须明确指定对方的 IP 地址

4、不可靠是指 IP 协议不能保证 IP 数据报准确地到达接收端，它只是承诺尽最大努力。很多种情况都能导致 IP 数据报发送失败。比如，某个中转路由器发现 IP 数据报在网络上存活的时间太长（根据 IP 数据报头部字段 TTL 判断），那么它将丢弃之，并返回一个 ICMP 错误消息（超时错误）给发送端。又比如，接收端发现收到的 IP 数据报不正确（通过校验机制），它也将丢弃之，并返回一个 ICMP 错误消息（IP 头部参数错误）给发送端。无论哪种情况，发送端的 IP 模块一旦检测到 IP 数据报发送失败，就通知上层协议发送失败，而不会试图重传。因此，使用 IP 服务的上层协议（比如 TCP 协议）需要自己实现数据确认、超时重传等机制以达到可靠传输的目的

2、IPv4 头部结构

2.1 IPv4 头部结构

其长度通常为 20 字节，除非含有可变长的选项部分

在这里插入图片描述
4 位版本号指定 IP 协议的版本。对 IPv4 来说，其值是 4。其他 IPv4 协议的扩展版本（如 SIP 协议和 PIP 协议），则具有不同的版本号（它们的头部结构也和图 2-1 不同）

4 位头部长度标识该 IP 头部有多少个 32 bit 字（4 字节）。因为 4 位最大能表示 15，所以 IP 头部最长是 60 字节

8 位服务类型（Type Of Service，TOS）包括一个 3 位的优先权字段（现在已经忽略），4 位的 TOS 字段和 1 位保留字段（必须置 0）。4 位的 TOS 字段分别表示：最小延时，最大吞吐量，最高可靠性和最小费用。其中最多有一个能置为 1，应用程序应该根据实际需要来设置它。比如像 ssh 和 telnet 这样的登录程序需要的是最小延时的服务，而文件传输程序 ftp 则需要最大吞吐量的服务

16 位总长度是指整个 IP 数据报的长度，以字节为单位，因此 IP 数据报的最大长度为 65 535（2¹⁶－1）字节。但由于 MTU 的限制，长度超过 MTU 的数据报都将被分片传输，所以实际传输的 IP 数据报（或分片）的长度都远远没有达到最大值

接下来的 3 个字段则描述了如何实现分片
16 位标识唯一地标识主机发送的每一个数据报。其初始值由系统随机生成；每发送一个数据报，其值就加 1。该值在数据报分片时被复制到每个分片中，因此同一个数据报的所有分片都具有相同的标识值

3 位标志字段的第一位保留。第二位（Don’t Fragment，DF）表示 “禁止分片”。如果设置了这个位，IP 模块将不对数据报进行分片。在这种情况下，如果 IP 数据报长度超过 MTU 的话，IP 模块将丢弃该数据报并返回一个 ICMP 差错报文。第三位（More Fragment，MF）表示 “更多分片”。除了数据报的最后一个分片外，其他分片都要把它置 1

13 位分片偏移是分片相对原始 IP 数据报开始处（仅指数据部分）的偏移。实际的偏移值是该值左移 3 位（乘 8）后得到的。由于这个原因，除了最后一个 IP 分片外，每个 IP 分片的数据部分的长度必须是 8 的整数倍（这样才能保证后面的 IP 分片拥有一个合适的偏移值）

8 位生存时间（Time To Live，TTL）是数据报到达目的地之前允许经过的路由器跳数。TTL 值被发送端设置（常见的值是 64）。数据报在转发过程中每经过一个路由，该值就被路由器减 1。当 TTL 值减为 0 时，路由器将丢弃数据报，并向源端发送一个 ICMP 差错报文。TTL 值可以防止数据报陷入路由循环

8 位协议（protocol）用来区分上层协议，/etc/protocols 文件定义了所有上层协议对应的 protocol 字段的数值。其中，ICMP 是 1，TCP 是 6，UDP 是 17

16 位头部校验和由发送端填充，接收端对其使用 CRC 算法以检验 IP 数据报头部（注意，仅检验头部）在传输过程中是否损坏

32 位的源端 IP 地址和目的端 IP 地址用来标识数据报的发送端和接收端。一般情况下，这两个地址在整个数据报的传递过程中保持不变，而不论它中间经过多少个中转路由器

IPv4 最后一个选项字段是可变长的可选信息。这部分最多包含 40 字节，因为 IP 头部最长是 60 字节（其中还包含前面讨论的 20 字节的固定部分）。可用的 IP 选项包括：

记录路由，告诉数据报途经的所有路由器将自己的 IP 地址填入 IP 头部的选项部分，这样就可以跟踪数据报的传递路径
时间戳，告诉每个路由器都将数据报被转发的时间（或时间与 IP 地址对）填入 IP 头部的选项部分，这样就可以测量途经路由之间数据报传输的时间
松散源路由选择，指定一个路由器 IP 地址列表，数据报发送过程中必须经过其中所有的路由器
严格源路由选择，和松散源路由选择类似，不过数据报只能经过被指定的路由器

这些选项字段很少被使用，使用松散源路由选择和严格源路由选择选项的例子大概仅有 traceroute 程序。此外，作为记录路由 IP 选项的替代品，traceroute 程序使用 UDP 报文和 ICMP 报文实现了更可靠的记录路由功能

2.2 使用 tcpdump 观察 IPv4 头部结构

从测试机器 ernest-laptop 上执行 telnet 命令登录本机，并用 tcpdump 抓取这个过程中 telnet 客户端程序和 telnet 服务器程序之间交换的数据包。具体的操作过程如下：

sudo tcpdump −ntx −i lo # 使用了 tcpdump 工具来捕获和显示 本地回环接口（lo）上的网络数据包
telnet 127.0.0.1 # 开启另一个终端执行 telnet 命令登陆本机
Connected to 127.0.0.1.
Escape character is '^]'. 
Ubuntu 9.10
ernest-laptop login: ernest  # 输入用户名并回车
Password: # 输入密码并回车

tcpdump: 捕获网络数据包的命令行工具
-n: 表示不将IP地址和端口号解析为主机名和服务名，而是直接显示数值形式
-t: 表示不显示时间戳信息
-x: 表示将每个数据包的内容以十六进制格式输出
-i lo: 表示指定在回环接口（lo）上捕获数据包，回环接口是系统内部通信的虚拟网络接口，用于测试和调试网络通信，以及在同一台设备上进行内部通信

虚拟接口：回环接口不是一个物理的网络设备，而是一个软件模拟的接口。它不依赖于实际的网络硬件，而是完全由操作系统管理

内部通信：回环接口用于在同一台设备上的应用程序之间传输数据。例如，当一个程序向回环接口发送数据包，这些数据包会立即返回到同一台设备的接收端，这就像数据包被“循环”回发送端一样

IP地址：回环接口通常与 127.0.0.1 这个特殊的IP地址绑定，常被称为“本地主机”。所有发送到这个地址的数据包都会被定向回发送它们的同一台计算机

此时观察 tcpdump 输出的第一个数据包
在这里插入图片描述
使用 telnet 登录本机的，所以 IP 数据报的源端 IP 地址和目的端 IP 地址都是 “127.0.0.1”。telnet 服务器程序使用的端口号是 23（参见 /etc/services 文件），而 telnet 客户端程序使用临时端口号 41621 与服务器通信

在本地通过 telnet 连接到本机（即 localhost 或 127.0.0.1），因为通信发生在同一台设备上，数据包不会经过实际的网络接口，而是通过回环接口（lo）进行传输。因此，IP 数据报的源地址和目的地址都将是回环地址 “127.0.0.1”
最常见的本机地址是 127.0.0.1，这是一个特殊的回环地址，用于设备内部的通信。任何发送到 127.0.0.1 的数据包都会返回到同一台设备，因此它常被用作 “localhost”
其他回环地址：在 IPv4 中，127.0.0.1 只是回环地址范围的一部分，整个 127.0.0.0/8 范围都被保留作为回环地址。因此，127.0.0.2、127.0.1.1 等其他地址也可以作为回环地址使用，但通常默认使用 127.0.0.1
在 IPv6 中，本地回环地址是 ::1

“length” 指出该 IP 数据报所携带的应用程序数据的长度
此数据包共包含 60 字节，其中前 20 字节是 IP 头部，后 40 字节是 TCP 头部，不包含应用程序数据（length 值为 0）
在这里插入图片描述
telnet 服务选择使用具有最小延时的服务，并且默认使用的传输层协议是 TCP 协议。这个 IP 数据报没有被分片，因为它没有携带任何应用程序数据

3、IP 分片

当 IP 数据报的长度超过帧的 MTU 时，它将被分片传输。分片可能发生在发送端，也可能发生在中转路由器上，而且可能在传输过程中被多次分片，但只有在最终的目标机器上，这些分片才会被内核中的 IP 模块重新组装

IP 头部中的如下三个字段给 IP 的分片和重组提供了足够的信息：数据报标识、标志和片偏移。一个 IP 数据报的每个分片都具有自己的 IP 头部，它们具有相同的标识值，但具有不同的片偏移。并且除了最后一个分片外，其他分片都将设置 MF 标志。此外，每个分片的 IP 头部的总长度字段将被设置为该分片的长度

以太网帧的 MTU 是 1500 字节（可以通过 ifconfig 命令或者 netstat 命令查看），因此它携带的 IP 数据报的数据部分最多是 1480 字节（IP 头部占用 20 字节）。考虑用 IP 数据报封装一个长度为 1481 字节的 ICMP 报文（包括 8 字节的 ICMP 头部，所以其数据部分长度为 1473 字节），则该数据报在使用以太网帧传输时必须被分片

长度为 1501 字节的 IP 数据报被拆分成两个 IP 分片，第一个 IP 分片长度为 1500 字节，第二个 IP 分片的长度为 21 字节。每个 IP 分片都包含自己的 IP 头部（20 字节），且第一个 IP 分片的 IP 头部设置了 MF 标志，而第二个 IP 分片的 IP 头部则没有设置该标志，因为它已经是最后一个分片了。原始 IP 数据报中的 ICMP 头部内容被完整地复制到了第一个 IP 分片中。第二个 IP 分片不包含 ICMP 头部信息，因为 IP 模块重组该 ICMP 报文的时候只需要一份 ICMP 头部信息，重复传送这个信息没有任何益处
在这里插入图片描述
ICMP 报文的头部长度取决于报文的类型，其变化范围很大。以 8 字节为例，因为后面的例子用到了 ping 程序，而 ping 程序使用的 ICMP 回显和应答报文的头部长度是 8 字节

从 ernest-laptop 来 ping 机器 Kongming20，每次传递 1473 字节的数据（这是 ICMP 报文的数据部分）以强制引起 IP 分片，并用 tcpdump 抓取这一过程中双方交换的数据包

$ sudo tcpdump -ntv -i eth0 icmp # 只抓取 ICMP 报文
$ ping Kongming20 -s 1473  # 用 -s 选项指定每次发送 1473 字节的数据

-v: 详细输出模式，提供比默认模式更多的包信息。它会显示数据包的TTL（生存时间）、协议、包长度等详细信息

考察 tcpdump 输出的一个 IP 数据报的两个分片

1. IP(tos 0x0, ttl 64, id 61197, offset 0, flags [+], proto ICMP (1), length 1500) 192.168.1.108 > 192.168.1.110: ICMP echo request, id 41737, seq 1, length 1480
2. IP(tos 0x0, ttl 64, id 61197, offset 1480, flags [none], proto ICMP (1), length 21) 192.168.1.108 > 192.168.1.110: icmp

这两个 IP 分片的标识值都是 61197，说明它们是同一个 IP 数据报的分片。第一个分片的片偏移值为 0，而第二个则是 1480。很显然，第二个分片的片偏移值实际上也是第一个分片的 ICMP 报文的长度。第一个分片设置了 MF 标志以表示还有后续分片，所以 tcpdump 输出 “flags [+]”。而第二个分片则没有设置任何标志，所以 tcpdump 输出 “flags [none]”。这两个分片的长度分别为 1500 字节和 21 字节

最后，IP 层传递给数据链路层的数据可能是一个完整的 IP 数据报，也可能是一个 IP 分片，它们统称为 IP 分组

4、IP 路由

IP 协议的一个核心任务是数据报的路由，即决定发送数据报到目标机器的路径

4.1 IP 模块工作流程

在这里插入图片描述

当 IP 模块接收到来自数据链路层的 IP 数据报时，它首先对该数据报的头部做 CRC 校验，确认无误之后就分析其头部的具体信息

如果该 IP 数据报的头部设置了源站选路选项（松散源路由选择或严格源路由选择），则 IP 模块调用数据报转发子模块来处理该数据报。如果该 IP 数据报的头部中目标 IP 地址是本机的某个 IP 地址，或者是广播地址，即该数据报是发送给本机的，则 IP 模块就根据数据报头部中的协议字段来决定将它派发给哪个上层应用（分用）。如果 IP 模块发现这个数据报不是发送给本机的，则也调用数据报转发子模块来处理该数据报

数据报转发子模块将首先检测系统是否允许转发，如果不允许，IP 模块就将数据报丢弃。如果允许，数据报转发子模块将对数据报执行一些操作，然后将它交给 IP 数据报输出子模块

IP 数据报应该发送至哪个下一跳路由器（或者目标机器），以及经过哪个网卡来发送，就是 IP 路由过程，即图中 “计算下一跳路由” 子模块。IP 模块实现数据报路由的核心数据结构是路由表。这个表按照数据报的目标 IP 地址分类，同一类型的 IP 数据报将被发往相同的下一跳路由器（或者目标机器）

IP 输出队列中存放的是所有等待发送的 IP 数据报，其中除了需要转发的 IP 数据报外，还包括封装了本机上层数据（ICMP 报文、TCP 报文段和 UDP 数据报）的 IP 数据报

图中的虚线箭头显示了路由表更新的过程。这一过程是指通过路由协议或者 route 命令调整路由表，使之更适应最新的网络拓扑结构，称为 IP 路由策略

4.2 路由机制

需要先了解路由表的内容。可以使用 route 命令或 netstat 命令查看路由表。在测试机器 ernest-laptop 上执行 route 命令
在这里插入图片描述
该路由表包含两项，每项都包含 8个字段

字段	含义
Destination	目标网络或主机
Gateway	网关地址，* 表示目标和本机在同一网络，不需要路由
Genmask	网络掩码
Flags	路由项标志，常见标志有如下 5 种：U，该路由项是活动的；H，该路由项的目标是一台主机；G，该路由项的目标是网关；D，该路由项是由重定向生成的；M，该路由项被重定向修改过
Metric	路由距离，即到达指定网络所需的中转数
Ref	路由项被引用的次数（Linux 未使用）
Use	该路由项被使用的次数
Iface	该路由项对应的输出网卡接口

第一项的目标地址是 default，即所谓的默认路由项。该项包含一个 “G” 标志，说明路由的下一跳目标是网关（数据包必须通过指定的网关进行转发，而不是直接发送到目的地），其地址是 192.168.1.1（这是测试网络中路由器的本地 IP 地址（在大多数家庭或小型办公室网络中，路由器会使用 192.168.1.1 作为默认的本地IP地址（即网关地址）），当设备在该网络内通信时，如果目标设备不在同一个子网，数据包将发送到 192.168.1.1，由路由器负责将其转发到合适的目标）
另外一个路由项的目标地址是 192.168.1.0，它指的是本地局域网。该路由项的网关地址为 * ，说明数据报不需要路由中转，可以直接发送到目标机器

网关是一种网络设备，充当不同网络之间的入口和出口，负责在不同网络之间转发数据包。它可以连接两个或多个网络，并根据需要将数据从一个网络传输到另一个网络

给定数据报的目标 IP 地址，它将匹配路由表中的哪一项呢？这就是 IP 的路由机制，分为 3 个步骤：
1）查找路由表中和数据报的目标 IP 地址完全匹配的主机 IP 地址。如果找到，就使用该路由项，没找到则转步骤 2

2）查找路由表中和数据报的目标 IP 地址具有相同网络 ID 的网络 IP 地址（比如代码清单 2-2 所示的路由表中的第二项，具有相同网络 ID 的网络 IP 地址是指那些在同一子网（或网络）内的 IP 地址。每个 IP 地址可以分为两个部分：网络 ID 和主机 ID，例如，子网掩码 255.255.255.0（即 /24 表示法）意味着前 24 位是网络 ID，后 8 位是主机 ID）。如果找到，就使用该路由项；没找到则转步骤 3

3）选择默认路由项，这通常意味着数据报的下一跳路由是网关

对于测试机器 ernest-laptop 而言，所有发送到 IP 地址为 192.168.1.* 的机器的 IP 数据报都可以直接发送到目标机器（匹配路由表第二项），而所有访问因特网的请求都将通过网关来转发（匹配默认路由项）

4.3 路由表更新

路由表必须能够更新，以反映网络连接的变化，这样 IP 模块才能准确、高效地转发数据报。route 命令可以修改路由表

$ sudo route add -host 192.168.1.109 dev eth0
$ sudo route del -net 192.168.1.0 netmask 255.255.255.0
$ sudo route del default
$ sudo route add default gw 192.168.1.109 dev eth0

第 1 行表示添加主机 192.168.1.109（机器 Kongming20）对应的路由项。这样设置之后，所有从 ernest-laptop 发送到 Kongming20 的 IP 数据报将通过网卡 eth0 直接送至目标机器的接收网卡。第 2 行表示删除网络 192.168.1.0 对应的路由项。这样，除了机器 Kongming20 外，测试机器 ernest-laptop 将无法访问该局域网上的任何其他机器（能访问到 Kongming20 是由于执行了上一条命令）。第 3 行表示删除默认路由项，这样做的后果是无法访问因特网。第 4 行表示重新设置默认路由项，不过这次其网关是机器 Kongming20（而不是能直接访问因特网的路由器）

sudo route add -host 192.168.1.109 dev eth0：
目的：将特定的主机（192.168.1.109）的路由添加到路由表中，并指定该路由使用网络接口 eth0

解释：
sudo：以超级用户权限运行命令
route add：添加一个新的路由条目
-host 192.168.1.109：指定目标是单一主机 192.168.1.109
dev eth0：指定路由条目应使用 eth0 这个网络接口

作用：当计算机需要与 192.168.1.109 进行通信时，它会通过 eth0 接口发送数据包

sudo route del -net 192.168.1.0 netmask 255.255.255.0：

route del：删除一个路由条目。
-net 192.168.1.0：指定目标网络 192.168.1.0
netmask 255.255.255.0：指定该网络的子网掩码，表示该网络范围是 192.168.1.0 到 192.168.1.255

sudo route add default gw 192.168.1.109 dev eth0：
gw 192.168.1.109：指定使用网关 192.168.1.109 作为下一跳
在这里插入图片描述
第一个路由项是主机路由项，所以它被设置了 “H” 标志

通过 route 命令或其他工具手工修改路由表，是静态的路由更新方式。对于大型的路由器，它们通常通过 BGP（Border Gateway Protocol，边际网关协议）、RIP（Routing Information Protocol，路由信息协议）、OSPF 等协议来发现路径，并更新自己的路由表。这种更新方式是动态的、自动的

BGP（Border Gateway Protocol，边界网关协议）
概述：
BGP 是一种用于在不同自治系统（AS，Autonomous System）（例如，不同的互联网服务提供商）之间交换路由信息的协议，主要应用于互联网上的路由选择
BGP 是唯一的外部网关协议（EGP）
特性：
路径矢量协议：BGP 通过维护从源到目标的整个路径信息来选择最佳路径
策略控制：BGP 允许网络管理员根据多种策略（如路由策略、经济考虑、网络性能）来控制路由选择
规模和可扩展性：BGP 是为大型网络设计的，能够处理全球互联网的路由信息
慢收敛性：由于 BGP 的复杂性和全球范围的应用，它的收敛速度相对较慢
应用场景：
BGP 被广泛应用于互联网的核心部分，负责在不同 ISP 之间进行路由选择和路由信息交换
适用于需要复杂路由策略和高可扩展性的场景
RIP（Routing Information Protocol，路由信息协议）
概述：
RIP 是一种基于距离矢量的路由协议，属于内部网关协议（IGP）。它最初用于小型局域网（LAN），随着网络的增长，逐渐被更高级的协议（如 OSPF 和 EIGRP）取代
特性：
距离矢量协议：RIP 通过计算跳数（从源到目标路由器的中间路由器数量）来选择最佳路径
跳数限制：RIP 允许的最大跳数为 15，跳数为 16 时表示不可达。因此，RIP 适用于小型网络
定期更新：RIP 每隔 30 秒向所有相邻路由器广播整个路由表，导致带宽的浪费和慢收敛
简单性：RIP 易于配置和管理，但由于它的简单性，适用范围有限
应用场景：
RIP 适用于小型、简单的网络，由于其跳数限制和带宽浪费问题，不适合大规模网络
主要用于早期的局域网和一些简单的网络环境
OSPF（Open Shortest Path First，开放最短路径优先）
概述：
OSPF 是一种链路状态路由协议，属于内部网关协议（IGP）。它被广泛应用于大型企业网络和服务提供商网络中，用于在单一自治系统内进行路由选择
特性：
链路状态协议：OSPF 通过维护整个网络的拓扑结构来计算最短路径，使用 Dijkstra 算法来选择最佳路径
快速收敛：OSPF 的收敛速度比 RIP 快得多，这使得它能够在大型网络中迅速适应拓扑变化
区域划分：OSPF 允许网络划分为多个区域，减少路由信息的传播量，提高效率
无类路由：OSPF 支持无类域间路由（CIDR），允许使用更灵活的子网划分
应用场景：
OSPF 适用于中大型网络，如企业局域网、服务提供商网络等
特别适合需要快速收敛和灵活配置的复杂网络环境

5、IP 转发

不是发送给本机的 IP 数据报将由数据报转发子模块来处理。路由器都能执行数据报的转发操作，而主机一般只发送和接收数据报，这是因为主机上 /proc/sys/net/ipv4/ip_forward 内核参数默认被设置为 0。可以通过修改它来使能主机的数据报转发功能

echo 1 > /proc/sys/net/ipv4/ip_forward

echo 1：echo 命令用于将 1 输出到标准输出。1 在这里表示启用某个功能

> /proc/sys/net/ipv4/ip_forward：> 是重定向操作符，将前面的输出内容写入到 /proc/sys/net/ipv4/ip_forward 文件中

对于允许 IP 数据报转发的系统（主机或路由器），数据报转发子模块将对期望转发的数据报执行如下操作：
1）检查数据报头部的 TTL 值。如果 TTL 值已经是 0，则丢弃该数据报
2）查看数据报头部的严格源路由选择选项。如果该选项被设置，则检测数据报的目标 IP 地址是否是本机的某个 IP 地址。如果不是，则发送一个 ICMP 源站选路失败报文给发送端
3）如果有必要，则给源端发送一个 ICMP 重定向报文，以告诉它一个更合理的下一跳路由器
4）将 TTL 值减 1
5）处理 IP 头部选项
6）如果有必要，则执行 IP 分片操作

6、重定向

ICMP 重定向报文也能用于更新路由表

6.1 ICMP 重定向报文

ICMP 报文头部的 3 个固定字段：8 位类型、8 位代码和 16 位校验和。ICMP 重定向报文的类型值是 5，代码字段有 4 个可选值，用来区分不同的重定向类型。仅讨论主机重定向，其代码值为 1

ICMP 重定向报文的数据部分含义很明确，它给接收方提供了如下两个信息：

引起重定向的 IP 数据报的源端 IP 地址
应该使用的路由器的 IP 地址

接收主机根据这两个信息就可以断定引起重定向的 IP 数据报应该使用哪个路由器来转发，并且以此来更新路由表（通常是更新路由表缓冲，而不是直接更改路由表）
/proc/sys/net/ipv4/conf/all/send_redirects 内核参数指定是否允许发送 ICMP 重定向报文，而 /proc/sys/net/ipv4/conf/all/accept_redirects 内核参数则指定是否允许接收 ICMP 重定向报文。一般来说，主机只能接收 ICMP 重定向报文，而路由器只能发送 ICMP 重定向报文

6.2 主机重定向实例

把机器 ernest-laptop 的网关设置成了机器 Kongming20，第 5 节中又使能了 Kongming20 的数据报转发功能，因此机器 ernest-laptop 将通过 Kongming20 来访问因特网

$ ping www.baidu.com
PING www.a.shifen.com (119.75.217.56) 56(84) bytes of data.
From Kongming20 (192.168.1.109): icmp_seq=1 Redirect Host(New nexthop: 192.168.1.1)
64 bytes from 119.75.217.56: icmp_seq=1 ttl=54 time=6.78 ms

-- www.a.shifen.com ping statistics ---
1 packets transmitted, 1 received, 0% packet loss, time 0ms
rtt min/avg/max/mdev = 6.789/6.789/6.789/0.000 ms

从 ping 命令的输出来看，Kongming20 给 ernest-laptop 发送了一个 ICMP 重定向报文，告诉它请通过 192.168.1.1 来访问目标机器，因为这对 ernest-laptop 来说是更合理的路由方式。当主机 ernest-laptop 收到这样的 ICMP 重定向报文后，它将更新其路由表缓冲（使用命令 route -Cn 查看），并使用新的路由方式来发送后续数据报
在这里插入图片描述

7、IPv6 头部结构

不仅解决了 IPv4 地址不够用的问题，还做了很大的改进。比如，增加了多播和流的功能，为网络上多媒体内容的质量提供精细的控制；引入自动配置功能，使得局域网管理更方便；增加了专门的安全网络功能等

7.1 IPv6 固定头部结构

IPv6 头部由 40 字节的固定头部和可变长的扩展头部组成
在这里插入图片描述
4 位版本号指定 IP 协议的版本。对 IPv6 来说，其值是 6

8 位通信类型指示数据流通信类型或优先级，和 IPv4 中的 TOS 类似

20 位流标签是 IPv6 新增加的字段，用于某些对连接的服务质量有特殊要求的通信，比如音频或视频等实时数据传输

16 位净荷长度指的是 IPv6 扩展头部和应用程序数据长度之和，不包括固定头部长度

8 位下一个报头（next header）（包的头部）指出紧跟 IPv6 固定头部后的包头类型，如扩展头（如果有的话）或某个上层协议头（比如 TCP，UDP 或 ICMP）。它类似于 IPv4 头部中的协议字段，且相同的取值有相同的含义

8 位跳数限制和 IPv4 中的 TTL 含义相同

IPv6 用 128 位（16 字节）来表示 IP 地址，使得 IP 地址的总量达到了 2¹²⁸ 个

32 位表示的 IPv4 地址一般用点分十进制来表示，而 IPv6 地址则用十六进制字符串表示，比如“FE80:0000:0000:0000:1234:5678:0000:0012”。可见，IPv6 地址用“:”分割成 8 组，每组包含 2 字节

但这种表示方法过于麻烦，通常可以使用所谓的零压缩法来将其简化，也就是省略连续的、全零的组。比如，上面的例子使用零压缩法可表示为 “FE80::1234:5678:0000:0012”。不过零压缩法对一个 IPv6 地址只能使用一次，比如上面的例子中，字节组“5678”后面的全零组就不能再省略，否则我们就无法计算每个“:”之间省略了多少个全零组

7.2 IPv6 扩展头部

可变长的扩展头部使得 IPv6 能支持更多的选项，并且很便于将来的扩展需要。它的长度可以是 0，表示数据报没使用任何扩展头部。一个数据报可以包含多个扩展头部，每个扩展头部的类型由前一个头部（固定头部或扩展头部）中的下一个报头字段指定

扩展头部	含义
Hop-by-Hop	逐跳选项头部，它包含每个路由器都必须检查和处理的特殊参数选项
Destination options	目的选项头部，指定由最终目的节点处理的选项
Routing	路由头部，指定数据报要经过哪些中转路由器，功能类似于 IPv4 的松散源路由选择选项和记录路由选项
Fragment	分片头部，处理分片和重组的细节
Authentication	认证头部，提供数据源认证、数据完整性检查和反重播保护（用于防止攻击者重复发送相同的数据包以试图欺骗接收方或扰乱网络通信：攻击者重播认证数据包，试图伪装成合法用户；中断服务：通过重复发送旧的数据包，攻击者可能会扰乱正常的网络服务或通信流程）
Encapsulating Security Payload	加密头部，提供加密服务
No next header	没有后续扩展头部

IPv6 协议并不是 IPv4 协议的简单扩展，而是完全独立的协议。用以太网帧封装的 IPv6 数据报和 IPv4 数据报具有不同的类型值。IPv4 数据报的以太网帧封装类型值是 0x800，而 IPv6 数据报的以太网帧封装类型值是 0x86dd

Asher Gu

关注

15
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Linux高性能服务器编程总结索引 | 第2章：IP协议详解

IP服务的特点；IPv4头部结构；IP分片；IP路由：IP模块工作流程，路由机制，路由表更新；IP转发；重定向；IPv6头部结构：IPv6固定头部结构，IPv6扩展头部
复制链接

扫一扫