作者:lwyang?
内核版本:Linux-4.20.8
网桥是一种2层网络互连设备,而不是一种网络协议。它在协议结构上并没有占有一席之地,因此不能通过向协议栈注册协议的方式来申请网桥数据包的处理。相反,网桥接口的数据包和一般接口(如eth0)在格式上完全是一样的,不同之处是网桥在2层上就对它进行了转了,而一般接口要在3层 才能根据路由信息来决定是否要转发,如何转发。
linux内核是通过一个虚拟的网桥设备来实现桥接的。这个虚拟设备可以绑定若干个以太网接口设备,从而将它们桥接起来。如下图(摘自ULNI):
网桥设备br0
绑定了eth0
和eth1
。对于网络协议栈的上层来说,只看得到br0,因为桥接是在数据链路层实现的,上层不需要关心桥接的细节。于是协议栈上层需要发送的报文被送到br0,网桥设备的处理代码再来判断报文该被转发到eth0或是eth1,或者两者皆是;反过来,从eth0或从eth1接收到的报文被提交给网桥的处理代码,在这里会判断报文该转发、丢弃、或提交到协议栈上层
linux内核支持网口的桥接(目前只支持以太网接口)。但是与单纯的交换机不同,交换机只是一个二层设备,对于接收到的报文,要么转发、要么丢弃。小型的交换机里面只需要一块交换芯片即可,并不需要CPU。而运行着linux内核的机器本身就是一台主机,有可能就是网络报文的目的地。其收到的报文除了转发和丢弃,还可能被送到网络协议栈的上层(网络层),从而被自己消化
rx_handler_result_t br_handle_frame(struct sk_buff **pskb)
{
struct net_bridge_port *p;
struct sk_buff *skb = *pskb;
//获取数据包的目的mac地址
const unsigned char *dest = eth_hdr(skb)->h_dest;
//开启ebtables时
br_should_route_hook_t *rhook;
//如果是本地环回包则跳过桥处理,直接返回
if (unlikely(skb->pkt_type == PACKET_LOOPBACK))
return RX_HANDLER_PASS;
//源mac地址无效则丢弃
if (!is_valid_ether_addr(eth_hdr(skb)->h_source))
goto drop;
//判断skb是否共享(skb->users!=1 ?),如果是共享则克隆一份,并将原skb的引用计数-1(skb->users-1)
//如果不克隆则会影响共享此skb的其他函数,如果此skb为不共享,则直接返回此skb
skb = skb_share_check(skb, GFP_ATOMIC);
if (!skb)
return RX_HANDLER_CONSUMED;
//获取net_bridge_port网桥接口(dev->rx_handler_data),在br_add_if中赋值的,见上节桥处理函数的注册
p = br_port_get_rcu(skb->dev);
if (p->flags & BR_VLAN_TUNNEL) {
if (br_handle_ingress_vlan_tunnel(skb, p,
nbp_vlan_group_rcu(p)))
goto drop;
}
//如果目的mac地址是本地链路地址link local reserved addr (01:80:c2:00:00:0X) STP报文
if (unlikely(is_link_local_ether_addr(dest))) {
u16 fwd_mask = p->br->group_fwd_mask_required;
/*
* See IEEE 802.1D Table 7-10 Reserved addresses
*
* Assignment Value
* Bridge Group Address 01-80-C2-00-00-00
* (MAC Control) 802.3 01-80-C2-00-00-01
* (Link Aggregation) 802.3 01-80-C2-00-00-02
* 802.1X PAE address 01-80-C2-00-00-03
*
* 802.1AB LLDP 01-80-C2-00-00-0E
*
* Others reserved for future standardization
*/
fwd_mask |= p->group_fwd_mask;
switch (dest[5]) {
case 0x00: /* Bridge Group Address */
/* If STP is turned off,
then must forward to keep loop detection */
if (p->br->stp_enabled == BR_NO_STP ||
fwd_mask & (1u << dest[5]))
goto forward;
*pskb = skb;
__br_handle_local_finish(skb);
return RX_HANDLER_PASS;
case 0x01: /* IEEE MAC (Pause) */
goto drop;
case 0x0E: /* 802.1AB LLDP */
fwd_mask |= p->br->group_fwd_mask;
if (fwd_mask & (1u << dest[5]))
goto forward;
*pskb = skb;
__br_handle_local_finish(skb);
return RX_HANDLER_PASS;
default:
/* Allow selective forwarding for most other protocols */
fwd_mask |= p->br->group_fwd_mask;
if (fwd_mask & (1u << dest[5]))
goto forward;
}
/* Deliver packet to local host only */
NF_HOOK(NFPROTO_BRIDGE, NF_BR_LOCAL_IN, dev_net(skb->dev),
NULL, skb, skb->dev, NULL, br_handle_local_finish);
return RX_HANDLER_CONSUMED;
}
//p->flags = BR_LEARNING | BR_FLOOD | BR_MCAST_FLOOD | BR_BCAST_FLOOD
forward:
//STP的五种状态
switch (p->state) {
//网桥端口处于转发状态
case BR_STATE_FORWARDING:
//ebtables获取路由的hook点
rhook = rcu_dereference(br_should_route_hook);
if (rhook) {
//转发数据包,然后返回
if ((*rhook)(skb)) {
*pskb = skb;
return RX_HANDLER_PASS;
}
dest = eth_hdr(skb)->h_dest;
}
/* fall through */
//网桥端口处于学习状态,处于BR_STATE_FORWARDING 状态也会执行下面的代码,因为上面的case没有break
case BR_STATE_LEARNING:
//数据包目的mac地址等于网桥的mac地址,属于发往本地的数据包
if (ether_addr_equal(p->br->dev->dev_addr, dest))
skb->pkt_type = PACKET_HOST;
//进入NF_BR_PRE_ROUTING钩子点,最后调用br_handle_frame_finish函数
NF_HOOK(NFPROTO_BRIDGE, NF_BR_PRE_ROUTING,
dev_net(skb->dev), NULL, skb, skb->dev, NULL,
br_handle_frame_finish);
break;
default:
drop:
kfree_skb(skb);
}
//最后返回RX_HANDLER_CONSUMED 表明我们在桥上已经处理了此数据包,原__netif_receive_skb_core应当直接返回
return RX_HANDLER_CONSUMED;
}
在br_handle_frame
函数中,主要就是将数据包放入NF_BR_PRE_ROUTING
钩子点,如有特殊的报文STP报文会直接放入NF_BR_LOCAL_IN
交给上层处理
那么接下来数据包会进入NF_BR_PRE_ROUTING
链进行处理,若我们在NF_BR_PRE_ROUTING链注册了自己的hook函数,则会根据按优先级处理我们的hook函数,若注册的hook函数返回值都为NF_ACCEPT
,然后最后会调用br_handle_frame_finish
决定数据包是转发还是发往本地