目录
2.1 网桥收包决策 br_handle_frame_finish()
2.1.1 网桥本地数据上送协议栈处理 br_pass_frame_up()
1 网桥处理报文概述
网桥是一种2层网络互连设备,而不是一种网络协议。它在协议结构上并没有占有一席之地,因此不能通过向协议栈注册协议的方式来申请网桥数据包的处理。相反,网桥接口的数据包和一般接口(如eth0)在格式上完全是一样的,不同之处是网桥在2层上就对它进行了转了,而一般接口要在3层 才能根据路由信息来决定是否要转发,如何转发。
linux内核是通过一个虚拟的网桥设备来实现桥接的。这个虚拟设备可以绑定若干个以太网接口设备,从而将它们桥接起来。如下图(摘自ULNI):
网桥设备br0
绑定了eth0
和eth1
。对于网络协议栈的上层来说,只看得到br0,因为桥接是在数据链路层实现的,上层不需要关心桥接的细节。于是协议栈上层需要发送的报文被送到br0,网桥设备的处理代码再来判断报文该被转发到eth0或是eth1,或者两者皆是;反过来,从eth0或从eth1接收到的报文被提交给网桥的处理代码,在这里会判断报文该转发、丢弃、或提交到协议栈上层
linux内核支持网口的桥接(目前只支持以太网接口)。但是与单纯的交换机不同,交换机只是一个二层设备,对于接收到的报文,要么转发、要么丢弃。小型的交换机里面只需要一块交换芯片即可,并不需要CPU。而运行着linux内核的机器本身就是一台主机,有可能就是网络报文的目的地。其收到的报文除了转发和丢弃,还可能被送到网络协议栈的上层(网络层),从而被自己消化。
2 网桥收包入口 br_handle_frame()
br_handle_frame是处理网桥入口函数,主要逻辑如下:
- 判断skb为环回数据包
- 判断mac地址是否有效(既不是组播 mac 地址也不是全0 mac 地址)
- 判断数据是否是共享并复制一份
- 获取net_bridge_port网桥接口,参见《linux 网桥代码分析之网桥及网桥端口的添加与删除Ⅲ》
- 判断目的mac地址是否是01:80:c2:00:00:0X类型,若是,则继续判断是0x8808协议,若是0x8808,个人理解则可能是mpcp相关的数据包,而mpcp是epon相关的协议,而mpcp协议中相关的消息和epon mac的硬件息息相关,linux内核对这类数据包就没有提供相关的公共函数了。对于其他类型的数据包,则调用函数br_handle_local_finish进行后续处理,而 br_handle_local_finish 也仅仅是调用br_fdb_update,更新fdb数据库
- 对于网桥端口是forward和learning状态的,则调用防火墙处理函数处理NF_BR_PRE_ROUTING的ebtables相关的规则
- 当通过NF_BR_PRE_ROUTING相关的 ebtables 规则后,则会调用函数br_handle_frame_finish 继续进行数据处理
rx_handler_result_t br_handle_frame(struct sk_buff **pskb)
{
struct net_bridge_port *p;
struct sk_buff *skb = *pskb;
//获取数据包的目的mac地址
const unsigned char *dest = eth_hdr(skb)->h_dest;
//开启ebtables时
br_should_route_hook_t *rhook;
//如果是本地环回包则跳过桥处理,直接返回
if (unlikely(skb->pkt_type == PACKET_LOOPBACK))
return RX_HANDLER_PASS;
//源mac地址无效则丢弃
if (!is_valid_ether_addr(eth_hdr(skb)->h_source))
goto drop;
//判断skb是否共享(skb->users!=1 ?),如果是共享则克隆一份,并将原skb的引用计数-1(skb->users-1)
//如果不克隆则会影响共享此skb的其他函数,如果此skb为不共享,则直接返回此skb
skb = skb_share_check(skb, GFP_ATOMIC);
if (!skb)
return RX_HANDLER_CONSUMED;
//获取net_bridge_port网桥接口(dev->rx_handler_data),在br_add_if中赋值的,网桥处理函数的注册
p = br_port_get_rcu(skb->dev);
if (p->flags & BR_VLAN_TUNNEL) {
if (br_handle_ingress_vlan_tunnel(skb, p,
nbp_vlan_group_rcu(p)))
goto drop;
}
//如果目的mac地址是本地链路地址link local reserved addr (01:80:c2:00:00:0X) STP报文
if (unlikely(is_link_local_ether_addr(dest))) {
u16 fwd_mask = p->br->group_fwd_mask_required;
/*
* See IEEE 802.1D Table 7-10 Reserved addresses
*
* Assignment Value
* Bridge Group Address 01-80-C2-00-00-00
* (MAC Control) 802.3 01-80-C2-00-00-01
* (Link Aggregation) 802.3 01-80-C2-00-00-02
* 802.1X PAE address 01-80-C2-00-00-03
*
* 802.1AB LLDP 01-80-C2-00-00-0E
*
* Others reserved for future standardization
*/
fwd_mask |= p->group_fwd_mask;
switch (dest[5]) {
case 0x00: /* Bridge Group Address */
/* If STP is turned off,
then must forward to keep loop detection */
if (p->br->stp_enabled == BR_NO_STP ||
fwd_mask & (1u << dest[5]))
goto forward;
*pskb = skb;
__br_handle_local_finish(skb);
return RX_HANDLER_PASS;
case 0x01: /* IEEE MAC (Pause) */
goto drop;
case 0x0E: /* 802.1AB LLDP */
fwd_mask |= p->br->group_fwd_mask;
if (fwd_mask & (1u << dest[5]))
goto forward;
*pskb = skb;
__br_handle_local_finish(skb);
return RX_HANDLER_PASS;
default:
/* Allow selective forwarding for most other protocols */
fwd_mask |= p->br->group_fwd_mask;
if (fwd_mask & (1u << dest[5]))
goto forward;
}
/* Deliver packet to local host only */
NF_HOOK(NFPROTO_BRIDGE, NF_BR_LOCAL_IN, dev_net(skb->dev),
NULL, skb, skb->dev, NULL, br_handle_local_finish);
return RX_HANDLER_CONSUMED;
}
//p->flags = BR_LEARNING | BR_FLOOD | BR_MCAST_FLOOD | BR_BCAST_FLOOD
forward:
//STP的五种状态
switch (p->state) {
//网桥端口处于转发状态
case BR_STATE_FORWARDING:
//ebtables获取路由的hook点
rhook = rcu_dereference(br_should_route_hook);
if (rhook) {
//转发数据包,然后返回
if ((*rhook)(skb)) {
*pskb = skb;
return RX_HANDLER_PASS;
}
dest = eth_hdr(skb)->h_dest;
}
/* fall through */
//网桥端口处于学习状态,处于BR_STATE_FORWARDING 状态也会执行下面的代码,因为上面的case没有break
case BR_STATE_LEARNING:
//数据包目的mac地址等于网桥的mac地址,属于发往本地的数据包
if (ether_addr_equal(p->br->dev->dev_addr, dest))
skb->pkt_type = PACKET_HOST;
//进入NF_BR_PRE_ROUTING钩子点,最后调用br_handle_frame_finish函数
NF_HOOK(NFPROTO_BRIDGE, NF_BR_PRE_ROUTING,
dev_net(skb->dev), NULL, skb, skb->dev, NULL,
br_handle_frame_finish);
break;
default:
drop:
kfree_skb(skb);
}
//最后返回RX_HANDLER_CONSUMED 表明我们在桥上已经处理了此数据包,原__netif_receive_skb_core应当直接返回
return RX_HANDLER_CONSUMED;
}
2.1 网桥收包决策 br_handle_frame_finish()
br_handle_frame_finish()
函数主要是决策将不同类别的数据包做不同的分发路径,它会决定数据包是转发还是交给上层协议栈去处理,主要逻辑如下:
1. 首先判断接收到数据包的设备对应的网桥端口的状态是否为 disable
2. 调用 br_fdb_update,更新fdb数据库,为数据包源mac地址与源网桥端口添加 fdb entry
3. 如果源网桥端口的状态为 learning,则不处理该数据包
4. a) 如果网桥设备处于混杂模式或者数据包的目的mac地址为组播地址,则需要将该 skb 的一个拷贝,发送给上层协议栈(通过调用 br_pass_frame_up 实现)
b) 如果数据包的目的 mac 地址为本地 mac,则只只需要将该数据包发送给上次协议栈,而不需转发数据包。
5.调用 __br_fdb_get 查找符合条件的fdb entry
a)若查找到了了符合条件的 fdb entry
i)若该fdb entry为local类型的,说明该数据包是发往本地的,则将skb赋值给skb2,然后skb指向NULL,不对该数据包进行转发。
ii)若该fdb entry不是local类型的,则调用br_forward,将数据包从指定端口转发出去。
b)若没有查找到指定的端口,则调用br_flood_forward,将数据从其他所有网桥端口发送出去
int br_handle_frame_finish(struct net *net, struct sock *sk, struct sk_buff *skb)
{
//获取网桥端口 dev->rx_handler_data
struct net_bridge_port *p = br_port_get_rcu(skb->dev);
enum br_pkt_type pkt_type = BR_PKT_UNICAST;
struct net_bridge_fdb_entry *dst = NULL;
struct net_bridge_mdb_entry *mdst;
bool local_rcv, mcast_hit = false;
const unsigned char *dest;
struct net_bridge *br;
u16 vid = 0;
//如果网桥端口不存在或者网桥端口状态为BR_STATE_DISABLED,则丢弃
if (!p || p->state == BR_STATE_DISABLED)
goto drop;
//判断是否允许进入桥内,如果没有开启vlan则所有的数据包都可以进入,
//如果开启了vlan则根据vlan相应的规则,从桥上进行数据包转发
if (!br_allowed_ingress(p->br, nbp_vlan_group_rcu(p), skb, &vid))
goto out;
//BR_INPUT_SKB_CB(skb)->offload_fwd_mark = p->offload_fwd_mark
nbp_switchdev_frame_mark(p, skb);
/* insert into forwarding database after filtering to avoid spoofing */
//获取网桥,下面会将网桥的device放入skb的私有数据中
br = p->br;
//如果网桥端口标志有BR_LEARNING,则更新fdb表
//一般新建网桥端口p->flags = BR_LEARNING | BR_FLOOD | BR_MCAST_FLOOD | BR_BCAST_FLOOD
if (p->flags & BR_LEARNING)
br_fdb_update(br, p, eth_hdr(skb)->h_source, vid, false);
//发往本地数据包标记,!!的作用是转换为bool值
local_rcv = !!(br->dev->flags & IFF_PROMISC);
dest = eth_hdr(skb)->h_dest;
if (is_multicast_ether_addr(dest)) {
/* by definition the broadcast is also a multicast address */
//若目的mac地址为广播包 (FF:FF:FF:FF:FF:FF),会发往本地一份
if (is_broadcast_ether_addr(dest)) {
pkt_type = BR_PKT_BROADCAST;
local_rcv = true;
} else {
//若为组播包
pkt_type = BR_PKT_MULTICAST;
//igmp snooping留给网桥子系统的外部接口函数,当网桥接收了igmp数据包后就会调用该函数进行后续处理
if (br_multicast_rcv(br, p, skb, vid))
goto drop;
}
}
//如果网桥端口状态此时还是BR_STATE_LEARNING,则丢弃
if (p->state == BR_STATE_LEARNING)
goto drop;
//将网桥所属的net_device放入skb的私有数据中(struct br_input_skb_cb)
BR_INPUT_SKB_CB(skb)->brdev = br->dev;
BR_INPUT_SKB_CB(skb)->src_port_isolated = !!(p->flags & BR_ISOLATED);
//进行与arp协议相关的处理 ?TODO
if (IS_ENABLED(CONFIG_INET) &&
(skb->protocol == htons(ETH_P_ARP) ||
skb->protocol == htons(ETH_P_RARP))) {
br_do_proxy_suppress_arp(skb, br, vid, p);
} else if (IS_ENABLED(CONFIG_IPV6) &&
skb->protocol == htons(ETH_P_IPV6) &&
br_opt_get(br, BROPT_NEIGH_SUPPRESS_ENABLED) &&
pskb_may_pull(skb, sizeof(struct ipv6hdr) +
sizeof(struct nd_msg)) &&
ipv6_hdr(skb)->nexthdr == IPPROTO_ICMPV6) {
struct nd_msg *msg, _msg;
msg = br_is_nd_neigh_msg(skb, &_msg);
if (msg)
br_do_suppress_nd(skb, br, vid, p, msg);
}
switch (pkt_type) {
//若为组播包
case BR_PKT_MULTICAST:
//获取组播转发项,设置local_rcv为true,组播包也要发往本地一份
mdst = br_mdb_get(br, skb, vid);
if ((mdst || BR_INPUT_SKB_CB_MROUTERS_ONLY(skb)) &&
br_multicast_querier_exists(br, eth_hdr(skb))) {
if ((mdst && mdst->host_joined) ||
br_multicast_is_router(br)) {
local_rcv = true;
br->dev->stats.multicast++;
}
//可以获取到数据包对应的组播转发信息
mcast_hit = true;
} else {
local_rcv = true;
br->dev->stats.multicast++;
}
break;
//既不是广播包,也不是组播包,则是单播包
case BR_PKT_UNICAST:
//根据目的mac地址查找fdb表,看是否有对应的表项
dst = br_fdb_find_rcu(br, dest, vid);
default:
break;
}
//如果找到目的mac对应转发表项
if (dst) {
unsigned long now = jiffies;
//dst->is_local为真,送入上层处理
if (dst->is_local)
return br_pass_frame_up(skb);
if (now != dst->used)
dst->used = now;
//根据fdb转发表项进行转发,若这里local_rcv 为1,(即端口处于混杂模式IFF_PROMISC),则会克隆一份再转发
//传入的第一个参数dst->dst 即为要转发的目的端口
br_forward(dst->dst, skb, local_rcv, false);
} else { //如果没有找到目的mac对应转发表项
//进行广播或者组播洪泛
if (!mcast_hit)
br_flood(br, skb, pkt_type, local_rcv, false);
else
br_multicast_flood(mdst, skb, local_rcv, false);
}
//local_rcv标记为1,送入上层处理
if (local_rcv)
return br_pass_frame_up(skb);
out:
return 0;
drop:
kfree_skb(skb);
goto out;
}
网桥设备是否处于混杂模式,如果是,则会发一份到本地进行处理
如果是广播包,则会进行广播洪泛,并会发一份到本地处理
如果是组播包,则根据组播表进行组播转发,并发一份数数包到本地处理
如果是单播包,发往本地的单播包则送到本地处理,在fdb表中可以找到转发表项的单播包则进行转发,未知单播包在广播域内进行洪泛
因此,在调用 br_handle_frame_finish() 的处理后,数据包有二个走向:
- 进行转发,已知单播(非本地)根据目的mac地址进行转发,未知单播根据转发表(广播表 or 组播表)进行端口洪泛。
- 发往本地进行上层处理。
2.1.1 网桥本地数据上送协议栈处理 br_pass_frame_up()
处理本地数据包的情况,即数据包目的mac地址是本地的单播数据、广播、组播和网桥处于混杂模式时都需要交给上层处理,在处理完NF_BR_PRE_ROUTING链后会调用br_pass_frame_up
进入上层处理。主要逻辑是用来
static int br_pass_frame_up(struct sk_buff *skb)
{
struct net_device *indev, *brdev = BR_INPUT_SKB_CB(skb)->brdev;
struct net_bridge *br = netdev_priv(brdev);
struct net_bridge_vlan_group *vg;
struct pcpu_sw_netstats *brstats = this_cpu_ptr(br->stats);
//统计网桥设备上的收包流量数据
u64_stats_update_begin(&brstats->syncp);
brstats->rx_packets++;
brstats->rx_bytes += skb->len;
u64_stats_update_end(&brstats->syncp);
//获取网桥设备上的vlan组
vg = br_vlan_group_rcu(br);
/* Bridge is just like any other port. Make sure the
* packet is allowed except in promisc modue when someone
* may be running packet capture.
*/
if (!(brdev->flags & IFF_PROMISC) &&
!br_allowed_egress(vg, skb)) {
kfree_skb(skb);
return NET_RX_DROP;
}
//记录数据包的收包网络设备
indev = skb->dev;
//将数据包的收包设备改为网桥设备
//当再次进入__netif_receive_skb_core时就不会再次进入桥处理了,因为网桥上没有注册rx_handler 函数
skb->dev = brdev;
//配置数据包vlan相关信息
skb = br_handle_vlan(br, NULL, vg, skb);
if (!skb)
return NET_RX_DROP;
/* update the multicast stats if the packet is IGMP/MLD */
//如果数据包是组播,更新组播数据包的统计信息
br_multicast_count(br, NULL, skb, br_multicast_igmp_type(skb),
BR_MCAST_DIR_TX);
//进入NF_BR_LOCAL_IN 钩子点进行处理,最后调用br_netif_receive_skb 函数
return NF_HOOK(NFPROTO_BRIDGE, NF_BR_LOCAL_IN,
dev_net(indev), NULL, skb, indev, NULL,
br_netif_receive_skb);
}
调用 netif_receive_skb,但此时 skb->dev = brdev; 已经替换为网桥设备,网桥上没有注册 rx_handler,因此调用 __netif_receive_skb_core 不会再次进入桥处理,然后会调用 ptype 协议链上对应的协议处理函数进入上层处理。代码如下:
static int __netif_receive_skb_core(struct sk_buff *skb, bool pfmemalloc)
{
struct packet_type *ptype, *pt_prev;
rx_handler_func_t *rx_handler;
struct net_device *orig_dev;
struct net_device *null_or_dev;
bool deliver_exact = false;
int ret = NET_RX_DROP;
__be16 type;
...//网桥设备 rx_handler = NULL,网桥下的端口注册 rx_handler = br_handle_frame
rx_handler = rcu_dereference(skb->dev->rx_handler);
if (rx_handler) {
if (pt_prev) {
ret = deliver_skb(skb, pt_prev, orig_dev);
pt_prev = NULL;
}
switch (rx_handler(&skb)) {
case RX_HANDLER_CONSUMED:
ret = NET_RX_SUCCESS;
goto unlock;
case RX_HANDLER_ANOTHER:
goto another_round;
case RX_HANDLER_EXACT:
deliver_exact = true;
case RX_HANDLER_PASS:
break;
default:
BUG();
}
}
...
type = skb->protocol;
list_for_each_entry_rcu(ptype,
&ptype_base[ntohs(type) & PTYPE_HASH_MASK], list) {
if (ptype->type == type &&
(ptype->dev == null_or_dev || ptype->dev == skb->dev ||
ptype->dev == orig_dev)) {
if (pt_prev)
ret = deliver_skb(skb, pt_prev, orig_dev);
pt_prev = ptype;
}
}
if (pt_prev) {
if (unlikely(skb_orphan_frags(skb, GFP_ATOMIC)))
goto drop;
else
ret = pt_prev->func(skb, skb->dev, pt_prev, orig_dev);
} else {
...
}
}
2.1.2 网桥本地数据转发函数 br_forward()