实现多跳路由检测(MRI)
目录
介绍
本教程的目的是通过带内网络遥测(INT)的缩小版本来扩展基本的L3转发,我们将其称为多跳路由检查(MRI)。
MRI允许用户跟踪每个数据包通过的路径和队列长度。 为了支持此功能,您将需要编写一个P4程序,该程序将ID和队列长度附加到每个数据包的标头堆栈中。 在目的地,交换机ID的序列与路径相对应,每个ID后面跟随交换机上端口的队列长度。
和以前一样,我们已经定义了控制平面规则,因此您只需要实现P4程序的数据平面逻辑即可。
步骤1:运行(不完整的)入门代码
该README文件所在的目录还包含一个框架P4程序mri.p4,该程序最初实现L3转发。 您的工作(在下一步中)将是扩展它以正确地在MRI自定义标头之前。
在此之前,让我们编译不完整的mri.p4并在Mininet中调出一个交换机来测试其行为。
1.在您的shell,请运行:
make
这将:
编译mri.p4,然后
使用三角形配置的三个交换机(s1,s2,s3)启动Mininet实例。 有5个主机。 h1和h11连接到s1。 h2和h22连接到s2,h3连接到s3。
为主机分配的IP为10.0.1.1、10.0.2.2等(10.0.<Switchid>.<hostID>)。
控制平面基于sx-runtime.json对每个交换机中的P4表进行编程。
2.我们要从h1到h2发送低速率流量,并从h11到h22发送高速率iperf流量。 s1和s2之间的链接在流之间很常见,并且是一个瓶颈,因为我们在topology.json中将其带宽减小到512kbps。 因此,如果我们在h2捕获数据包,则应该看到该链路的大量队列。
3.现在,您应该会看到一个Mininet命令提示符。 分别打开h1,h11,h2,h22的四个终端:
mininet> xterm h1 h11 h2 h22
4.在h2的xterm中,启动捕获数据包的服务器:
./receive.py
5.在h22的xterm中,启动iperf UDP服务器:
iperf -s -u
6.在h1的xterm中,使用send.py 每秒向h2发送一个数据包,说30秒,应该在h2的xterm中收到消息“ P4 is cool”。
./send.py 10.0.2.2 "P4 is cool" 30
7.在h11的xterm中,启动iperf客户端发送15秒
iperf -c 10.0.2.22 -t 15 -u
8.在h2的终端中,MRI标头没有跳信息(count= 0)
got a packet
###[ Ethernet ]###
dst = 08:00:00:00:02:02
src = 08:00:00:00:02:00
type = 0x800
###[ IP ]###
version = 4L
ihl = 6L
tos = 0x0
len = 42
id = 1
flags =
frag = 0L
ttl = 62
proto = udp
chksum = 0x64c0
src = 10.0.1.1
dst = 10.0.2.2
\options \
|###[ MRI ]###
| copy_flag = 0L
| optclass = control
| option = 31L
| length = 4
| count = 0
| \swtraces \
###[ UDP ]###
sport = 1234
dport = 4321
len = 18
chksum = 0x1c7b
###[ Raw ]###
load = 'P4 is cool'
9.键入exit以关闭每个xterm窗口
您应该看到在主机h2收到的消息,但是没有有关该消息采用的路径的任何信息。 您的工作是扩展mri.p4中的代码,以实现MRI逻辑来记录路径。
关于控制平面的注释
P4程序定义了一个数据包处理管道,但是控制数据包的规则是由控制平面插入到管道中的。 当规则与数据包匹配时,将使用控制平面提供的参数作为规则的一部分来调用其动作。
在本练习中,控制平面逻辑已经实现。 作为启动Mininet实例的一部分,make脚本将在每个交换机的表中安装数据包处理规则。 这些定义在sX-runtime.json文件中,其中X对应于交换机号。以交换机s3的配置过程举例:
Configuring switch s3 using P4Runtime with file s3-runtime.json
- Using P4Info file build/mri.p4.p4info.txt...
- Connecting to P4Runtime server on 127.0.0.1:50053 (bmv2)...
- Setting pipeline config (build/mri.json)...
- Inserting 4 table entries...
- MyEgress.swtrace: (default action) => MyEgress.add_swtrace(swid=3)
- MyIngress.ipv4_lpm: hdr.ipv4.dstAddr=['10.0.3.3', 32] => MyIngress.ipv4_forward(dstAddr=08:00:00:00:03:03, port=1)
- MyIngress.ipv4_lpm: hdr.ipv4.dstAddr=['10.0.1.0', 24] => MyIngress.ipv4_forward(dstAddr=08:00:00:00:01:00, port=2)
- MyIngress.ipv4_lpm: hdr.ipv4.dstAddr=['10.0.2.0', 24] => MyIngress.ipv4_forward(dstAddr=08:00:00:00:02:00, port=3)
Configuring switch s2 using P4Runtime with file s2-runtime.json
- Using P4Info file build/mri.p4.p4info.txt...
- Connecting to P4Runtime server on 127.0.0.1:50052 (bmv2)...
- Setting pipeline config (build/mri.json)...
- Inserting 5 table entries...
- MyEgress.swtrace: (default action) => MyEgress.add_swtrace(swid=2)
- MyIngress.ipv4_lpm: hdr.ipv4.dstAddr=['10.0.2.2', 32] => MyIngress.ipv4_forward(dstAddr=08:00:00:00:02:02, port=2)
- MyIngress.ipv4_lpm: hdr.ipv4.dstAddr=['10.0.2.22', 32] => MyIngress.ipv4_forward(dstAddr=08:00:00:00:02:22, port=1)
- MyIngress.ipv4_lpm: hdr.ipv4.dstAddr=['10.0.1.0', 24] => MyIngress.ipv4_forward(dstAddr=08:00:00:00:01:00, port=3)
- MyIngress.ipv4_lpm: hdr.ipv4.dstAddr=['10.0.3.0', 24] => MyIngress.ipv4_forward(dstAddr=08:00:00:00:03:00, port=4)
步骤2:实现MRI
mri.p4文件包含一个框架P4程序,其关键逻辑部分已由TODO注释替换。 这些应该能指导您的实践——用 实现缺失部分的逻辑 替换 每个TODO。
MRI将需要两个自定义header头部。 第一个标头mri_t包含单个字段count,该字段指示随后的交换机IDs的数量。 第二个报头switch_t包含数据包经过的每个交换机跳的交换机ID和队列深度字段。
实现MRI的最大挑战之一是处理用于解析这两个标头的递归逻辑。 我们将使用parser_metadata字段remaining来跟踪我们需要解析多少个switch_t标头。 在parse_mri状态下,此字段应设置为hdr.mri.count。 在parse_swtrace状态下,该字段应递减。 parse_swtrace状态将转换到其自身,直到剩余为0。
MRI自定义标头将携带在IP Options标头中。 IP选项标头包含一个字段option,用于指示选项的类型。 我们将使用特殊的类型31来表示MRI标头的存在。
除了解析器逻辑外,您还将在出口中添加一个表,在swtrace中存储交换机ID和队列深度,并执行增加count字段的操作,并附加一个switch_t标头。
完整的mri.p4将包含以下组件:
1.以太网(ethernet_t),IPv4(ipv4_t),IP选项(ipv4_option_t),MRI(mri_t)和交换机(switch_t)的header头部类型定义。
2.以太网,IPv4,IP选项,MRI和交换机的解析器Parsers,将填充ethernet_t,ipv4_t,ipv4_option_t,mri_t和switch_t。
3.使用mark_to_drop()丢弃数据包的动作action。
4.一个action动作(称为ipv4_forward),它将:
设置下一跳的出口端口。
用下一跳的地址更新以太网目标地址。
用交换机的地址更新以太网源地址。
减少TTL。
5. An ingress control:
定义一个表,该表将读取IPv4目标地址,并调用drop或ipv4_forward。
应用表的apply块。
6.在egress出口处,将添加交换机ID和队列深度的action动作(称为add_swtrace)。
7.应用表(swtrace)来存储交换机ID和队列深度并调用add_swtrace的egress control 。
8.用于选择将字段插入传出数据包的顺序的deparser。
9.附带有解析器,控制,校验和验证以及重新计算和反解析器的包实例化。
步骤3:运行您的解决方案
按照步骤1的说明进行操作。这次,当您的消息从h1传递到h2时,您应该看到数据包通过的交换顺序以及相应的队列深度。 预期的输出将如下所示,其中显示了MRI标头,count为2,交换机ID(swids)为2和1。公共链路(从s1到s2)的队列深度很高。
got a packet
###[ Ethernet ]###
dst = 00:04:00:02:00:02
src = f2:ed:e6:df:4e:fa
type = 0x800
###[ IP ]###
version = 4L
ihl = 10L
tos = 0x0
len = 42
id = 1
flags =
frag = 0L
ttl = 62
proto = udp
chksum = 0x60c0
src = 10.0.1.1
dst = 10.0.2.2
\options \
|###[ MRI ]###
| copy_flag = 0L
| optclass = control
| option = 31L
| length = 20
| count = 2
| \swtraces \
| |###[ SwitchTrace ]###
| | swid = 2
| | qdepth = 0
| |###[ SwitchTrace ]###
| | swid = 1
| | qdepth = 17
###[ UDP ]###
sport = 1234
dport = 4321
len = 18
chksum = 0x1c7b
###[ Raw ]###
load = 'P4 is cool'
疑难解答
问题可能通过几种方式表现出来:
1.mri.p4无法编译。 在这种情况下,make将报告编译器发出的错误并停止。
2.mri.p4编译但不尝试使用python控制器进行安装的sX-runtime.json文件中的控制平面规则。 在这种情况下,make会将控制器输出记录在logs目录中。 使用这些错误消息修复您的mri.p4实现。
3.mri.p4会编译,并且已安装控制平面规则,但是交换机未以所需方式处理数据包。 /tmp/p4s.<switch-name>.log文件包含描述每个交换机如何处理每个数据包的跟踪消息。 输出是详细的,可以帮助您查明实现中的逻辑错误。 build/<switch-name>-<interface-name>.pcap还包含每个接口上数据包的pcap。 使用tcpdump -r <文件名> -xxx打印数据包的十六进制转储。
4.编译mri.p4并安装所有规则。 数据包通过后,日志显示队列长度始终为0。然后要么减小topology.json中的链接带宽。
清理Mininet
在上述后两种情况下,make可能会使Mininet实例在后台运行。 使用以下命令清除这些实例:
make stop