OVS对VXLAN解封包（二）

最新推荐文章于 2024-04-13 12:10:48 发布

bob62856

最新推荐文章于 2024-04-13 12:10:48 发布

阅读量1.6k

点赞数 1

原文链接：https://www.cnblogs.com/sammyliu/p/4627230.html

版权

Open vSwitch 专栏收录该内容

48 篇文章

订阅专栏

VXLAN是一种网络虚拟化技术，用于跨越三层网络实现二层通信。它将二层数据帧封装进UDP包，通过VNID标识不同的VXLAN网段。VTEP作为VXLAN的关键角色，负责封装和解封装数据帧。VTEP通过多播和MAC地址学习来确定VXLAN隧道。VXLAN组网建立在物理网络之上，提供虚拟二层网络。数据流向涉及广播、多播和单播地址的处理。SDN控制器常用于解决VXLAN控制平面的问题，避免组播带来的负担。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、VxLAN 将二层数据帧封装为 UDP 包

在这里插入图片描述
含义：

Outer MAC destination address (MAC address of the tunnel endpoint VTEP)
Outer MAC source address (MAC address of the tunnel source VTEP)
Outer IP destination address (IP address of the tunnel endpoint VTEP)
Outer IP source address (IP address of the tunnel source VTEP)
Outer UDP header：Src port 往往用于 load balancing，下文有提到；Dst port 即 VXLAN Port，默认值为 4789.
VNID：表示该帧的来源虚机所在的 VXLAN 网段的 ID

特点：

VNID： 24-bits，最大 16777216。每个不同的 24-bits VNI 代表一个 VXLAN 网段。只有同一个网段中的虚机才能互相通信。
VXLAN Port：目的 UDP 端口，默认使用 4789 端口。用户可以自己配置。
两个VTEP 之间的 VXLAN tunnels 是无状态的。
VTEP 可以在虚拟交换机上，物理交换机或者物理服务器上通过软件或者硬件实现。
使用多播来传送未知目的的、广播或者多播帧。
VTEP 不可以对 VXLAN 包分段。

二、VTEP 寻址

一个 VTEP 可以管理多个 VXLAN 隧道，每个隧道通向不同的目标。那 VTEP 接收到一个二层帧后，它怎么根据二层帧中的目的 MAC 地址找到对应的 VXLAN 隧道呢？VXLAN 利用了多播和 MAC 地址学习技术。如果它收到的帧是个广播帧比如 ARP 帧，也会经过同样的过程。

以下图为例，每个 VTEP 包含两个 VXLAN 隧道。VTEP-1 收到二层 ARP 帧1（A 要查找 B 的 MAC）后，发出一个 Dst IP 地址为VTEP多播组 239.1.1.1 的 VXLAN 封装 UDP 包。该包会达到 VTEP-2 和 VTEP-3。VTEP-3 收到后，因为目的 IP 地址不在它的范围内，丢弃该包，但是学习到了一条路径：MAC-A,VNI 10,VTEP-1-IP，它知道要到达 A 需要经过 VTEP-1 了。VTEP-2 收到后，发现目的 IP 地址是机器 B，交给 B，同时添加学习到的规则 MAC-A,VNI 10,VTEP-1-IP。B 发回响应帧后，VTEP-2 直接使用 VTEP-1 的 IP 直接将它封装成三层包，通过物理网络直接到达 VTEP-1，再由它交给 A。VTEP-1 也学习到了一条规则 MAC-B,VNI 10,VTEP-2-IP。
在这里插入图片描述

三、VxLAN 组网

在这里插入图片描述

逻辑 VxLAN Tunnel：建立在物理的 VxLAN 网络之上，向虚机提供虚拟的二层网络，以 VNID 做区分。
VTEP（VxLAN Tunnel End Point）：对虚机的二层包封装和解封。

四、数据流向

在这里插入图片描述
发送端：

计算目的地址：Linux 内核在发送之前会检查数据帧的目的MAC地址，需要选择目的 VTEP。
- 如果是广播或者多播地址，则使用其 VNI 对应的 VXLAN group 组播地址，该多播组内所有的 VTEP 将收到该多播包；
- 如果是单播地址，如果 Linux 的 MAC 表中包含该 MAC 地址对应的目的 VTEP 地址，则使用它；
- 如果是单播地址，但是 LInux 的 MAC 表中不包含该 MAC 地址对应的目的 VTEP IP，那么使用该 VNI 对应的组播地址。
添加Headers：依次添加 VXLAN header，UDP header，IP header。

接收端：

UDP监听：因为 VXLAN 利用了 UDP，所以它在接收的时候势必须要有一个 UDP server 在监听某个端口，这个是在 VXLAN 初始化的时候完成的。
IP包剥离：一层一层剥离出原始的数据帧，交给 TCP/IP 栈，由它交给虚机。

5、 Open vSwitch 实现的 VxLAN VTEP

从上面的基础知识部分，我们知道 VTEP 不只是实现包的封装和解包，还包括：

ARP 解析：需要尽量高效的方式响应本地虚机的 ARP 请求
目的 VTEP 地址搜索：根据目的虚机的 MAC 地址，找到它所在机器的 VTEP 的 IP 地址

通常的实现方式包括：

使用 L3 多播
使用 SDN 控制器（controller）来提供集中式的 MAC/IP 对照表

（一个基于 Linuxbrige + VxLAN + Service Node 的集中式 Controller node 解决 VNI-VTEP_IPs 映射的提议，替代L3多播和广播，来源： 20140520-dlapsley-openstack-summit-vancouver-vxlan-v0-150520174345-lva1-app6891.pptx）
在VTEP本地运行一个代理（agent），接收（MAC, IP, VTEP IP）数据，并提供给 VTEP

那 Open vSwitch 是如何实现这些功能需求的呢？

在没有启用 l2population 的情况下，配置了多播就使用多播，没的话就使用广播
在启用 l2population 的情况下，在虚机 boot 以后，通过 MQ 向用于同网络虚机的节点上的 l2population driver 发送两种数据，再将数据加入到 OVS 流表
1. FDB (forwarding database): 目的地址-所在 VTEP IP 地址的对照表，用于查找目的虚机所在的 VTEP 的 IP 地址
2. 虚机 IP 地址 - MAC 地址的对照表，用于响应本地虚机的 ARP 请求

6、VXLAN为什么选择SDN

VXLAN的标准协议目前只定义了转发平面流程，对于控制平面目前还没有协议规范，所以目前业界有三种定义VXLAN控制平面的方式。

方式1：组播。由物理网络的组播协议形成组播表项，通过手工将不同的VXLAN与组播组一一绑定。VXLAN的报文通过绑定的组播组在组播对应的范围内进行泛洪。简单来说，和VLAN方式的组播泛洪和MAC地址自学习基本一致。区别只是前者在三层网络中预定义的组播范围内泛洪，而后者是在二层网络中指定VLAN范围内泛洪。这种方式的优点是非常简单，不需要做协议扩展。但缺点也是显而易见的，需要大量的三层组播表项，需要复杂的组播协议控制。显然，这两者对于传统物理网络的交换机而言，都是巨大的负荷和挑战，基本很难实现。同时，这种方式还给网络带来大量的组播泛洪流量，对网络性能有很大的影响。
方式2：自定义协议。通过自定义的邻居发现协议学习Overlay网络的拓扑结构并建立隧道管理机制。通过自定义（或扩展）的路由协议透传Overlay网络的MAC地址（或IP地址）。通过这些自定义的协议可以实现VXLAN控制平面转发表项的学习机制。这种方式的优点是不依赖组播，不存在大量的组播泛洪报文，对网络性能影响很小。缺点是通过邻居发现协议和路由协议控制所有网络节点，这样网络节点的数量就受到协议的限制。换句话说，如果网络节点的数量超过一定范围，就会导致对应的协议（例如路由协议）运行出现异常。这一点在互联网行业更加明显，因为互联网行业云计算的基本特征就是大规模甚至超大规模。尤其是在vSwitch上运行VXLAN自定义路由协议，其网络节点数量可以达到几千甚至上万个，没有路由协议可以支持这种规模的网络。
方式3：SDN控制器。通过SDN控制器集中控制VXLAN的转发，经由Openflow协议下发表项是目前业界的主流方式。这种方式的优点是不依赖组播，不对网络造成负荷；另外，控制器通过集群技术可以实现动态的扩容，所以可以支持大规模甚至超大规模的VXLAN网络。当然，SDN控制器本身的性能和可靠性决定了全网的性能和可靠性，所以如何能够提高控制器的性能和可靠性就是核心要素。

原文链接：https://www.cnblogs.com/sammyliu/p/4627230.html