Linux多网卡研究记录

背景:
服务器采用ubuntu16.04;
协议hls和udp;
网卡:bond0,enp3s0,enp4s0f0

目标要求:
实现使用指定网卡接收指定流
应用场景:
多个网卡直接连接多台设备;
多个网卡直接连接多个路由器;
服务器多网卡数据扩容;

1.route

策略路由东西太多,先省略

2.多网卡绑定bonding

2.1.插件安装

apt-get install ifenslave

2.2.配置网卡

打开文件/etc/network/interfaces,进行编辑:
auto lo
  iface lo inet loopback

auto enp3s0
   iface enp3s0 inet static
   address 192.168.1.240
   netmask 255.255.255.0
   bond-master bond0

auto enp4s0f1
   iface enp4s0f1 inet static
   address 192.168.1.241
   netmask 255.255.255.0
   bond-master bond0

auto bond0
   iface bond0 inet static
   address 192.168.1.246
   netmask 255.255.255.0
   network 192.168.1.0
   broadcast 192.168.1.255
   gateway 192.168.1.1
   bond-mode 0
   bond-miimon 100
   bond-slaves none
   dns-nameservers 192.168.1.1
   ifenslave bond0 enp3s0 enp4s0f1

2.3.把bond模块加入到/etc/modules

alias bond0 bonding
options bond0 mode=balance-alb miimon=100 max_bonds=2

#2.4.重启网卡

service networking restart

2.5.设置开机启动

modprobe bonding max_bonds=2

2.6.bonding信息查询

modinfo bonding |more
cat /proc/net/bonding/bond0
lsmod  | grep bonding

2.7.网卡信息查询

ethtool enp3s0

2.8.bond的七种模式介绍:

2.8.1.平衡轮循环策略

mode=0,balance-rr,平衡抡循环策略
特点:链路负载均衡,增加带宽,支持容错,若一条链路故障会自动切换到正常链路,数据包按网卡依次传输(即:第1个包走eth0,下一个包就走eth1)
功能:负载平衡和容错能力;
缺点:网络的吞吐量不高。因为一个连接或会话的数据包从不同的接口发出,中途再经过不同的链路,在客户端很可能会出现数据包无序到达的问题,而无序到达的数据包需要重新被发送。

交换机:需要配置聚合口。

2.8.2.主-备份策略

mode=1(active-backup)(主-备份策略)
特点:只有一块网卡是active,另一块是备用的standby,所有流量都在active链路上处理。
功能:容错能力;
优点:可提供高网络连接的可用性
缺点:资源利用率较低。因为只有一个接口处于工作状态,在有N个网络接口的情况下,资源利用率为1/N

交换机:无

2.8.3.平衡策略

mode=2(balance-xor)(平衡策略)
特点:XOR Hash负载分担,和交换机的聚合强制不协商方式配合。基于指定的传输HASH策略传输数据包。缺省的策略是:(源MAC地址 XOR 目标MAC地址) % slave数量。其他的传输策略可以通过xmit_hash_policy选项指定。
功能:负载平衡和容错能力
交换机:需要xmit_hash_policy,需要交换机配置聚合口

2.8.4.广播策略

mode=3(broadcast)(广播策略)
特点:所有包从所有网络接口发出,不均衡,只有冗余机制,但过于浪费资源。此模式适用于金融行业,因为他们需要高可靠性的网络,不允许出现任何问题。需要和交换机的聚合强制不协商方式配合。
功能:容错能力

2.8.5.IEEE 802.3ad 动态链接聚合

mode=4(802.3ad)(IEEE 802.3ad 动态链接聚合)
特点:支持802.3ad协议,和交换机的聚合LACP方式配合(需要xmit_hash_policy).标准要求所有设备在聚合操作时,要在同样的速率和双工模式,而且,和除了balance-rr模式外的其它bonding负载均衡模式一样,任何连接都不能使用多于一个接口的带宽。
特点:创建一个聚合组,它们共享同样的速率和双工设定。根据802.3ad规范将多个slave工作在同一个激活的聚合体下。
外出流量的slave选举是基于传输hash策略,该策略可以通过xmit_hash_policy选项从缺省的XOR策略改变到其他策略。需要注意的 是,并不是所有的传输策略都是802.3ad适应的,尤其考虑到在802.3ad标准43.2.4章节提及的包乱序问题。不同的实现可能会有不同的适应 性。
必要条件:
  条件1:ethtool支持获取每个slave的速率和双工设定
  条件2:switch(交换机)支持IEEE 802.3ad Dynamic link aggregation
  条件3:大多数switch(交换机)需要经过特定配置才能支持802.3ad模式

2.8.6.适配器传输负载均衡

mode=5(balance-tlb)(适配器传输负载均衡)
特点:根据每个slave的负载情况选择slave进行发送,接收时使用当前轮到的slave。在每个slave上根据当前的负载(根据速度计算)分配外出流量。若正在接收数据的slave出故障了,另一个slave接管失败的slave的MAC地址。
功能:负载平衡和容错能力
额外:ethtool支持获取每个slave的速率,且ARP监控不可用。

2.8.7.适配器适应性负载均衡

mode=6(balance-alb)(适配器适应性负载均衡)
特点:包含了balance-tlb模式,同时加上针对IPV4流量的接收负载均衡(receive load balance, rlb),且不需要任何交换机支持,接收负载均衡是通过ARP协商实现的。bonding驱动截获本机发送的ARP应答,并把源硬件地址改写为bond中某个slave的唯一硬件地址,从而使得不同的对端使用不同的硬件地址进行通信。来自服务器端的接收流量也会被均衡。使用ARP协商进行负载均衡的一个问题是:每次广播 ARP请求时都会使用bond的硬件地址,因此对端学习到这个硬件地址后,接收流量将会全部流向当前的slave。这个问题可以通过给所有的对端发送更新。(ARP应答)来解决,应答中包含他们独一无二的硬件地址,从而导致流量重新分布。当新的slave加入到bond中时,或者某个未激活的slave重新 激活时,接收流量也要重新分布。接收的负载被顺序地分布(round robin)在bond中最高速的slave上 当某个链路被重新接上,或者一个新的slave加入到bond中,接收流量在所有当前激活的slave中全部重新分配,通过使用指定的MAC地址给每个 client发起ARP应答。下面介绍的updelay参数必须被设置为某个大于等于switch(交换机)转发延时的值,从而保证发往对端的ARP应答 不会被switch(交换机)阻截。
额外:
  ethtool支持获取每个slave的速率;
  底层驱动支持设置某个设备的硬件地址,从而使得总是有个slave(curr_active_slave)使用bond的硬件地址,同时保证每个bond 中的slave都有一个唯一的硬件地址。如果curr_active_slave出故障,它的硬件地址将会被新选出来的 curr_active_slave接管

mode6与mode0的区别:mode6,先把eth0流量占满,再占eth1,….ethX;而mode0的话,轮循占用几个网卡。
mode5和mode6不需要交换机端的设置,网卡能自动聚合。mode4需要支持802.3ad。mode0,mode2和mode3理论上需要静态聚合方式。

3.多网卡组播输入

3.1.将指定网卡加入组播组

struct ip_mreq mreq;
memset(&mreq, 0, sizeof(struct ip_mreq) );
mreq.imr_multiaddr.s_addr = inet_addr(multiaddr);
mreq.imr_interface.s_addr= ( NULL==localhostip_in) ? INADDR_ANY : inet_addr(localhostip_in);
if (setsockopt(s->fd, IPPROTO_IP, IP_ADD_MEMBERSHIP, (const void *)&mreq, sizeof(mreq)) < 0) {
	ms_errret(-1, "setsockopt(IP_ADD_MEMBERSHIP) %s (%d,%s)", s->urlctt_opt.udp_opt.localhostip_in,errno,strerror(errno) );
}

ip_mreq的结构中imr_multiaddr表示组播地址,imr_interface表示指定接收组播的网卡地址。除去ip_mreq外,还可以传入ip_mreqn,指定网卡索引;ip_mreq_source,指定输入源地址;ip_mreq结构如下

struct ip_mreq  {
	struct in_addr imr_multiaddr;	/* IP multicast address of group */
	struct in_addr imr_interface;	/* local IP address of interface */
};

使用指令"netstat -gn",可查看到eth1确实已经被加入到224.2.2.2组播组

eth0            1      224.0.0.251
eth0            1      224.0.0.1
eth1            1      224.2.2.2
eth1            1      224.0.0.251
eth1            1      224.0.0.1
eth2            1      224.0.0.251
eth2            1      224.0.0.1

使用指令"tcpdump -i eth1 igmp",可抓取到IGMP信息

10:53:45.070544 IP 192.168.59.244 > 224.2.2.2: igmp v2 report 224.2.2.2

但此时发现数据并没有请求到应用层,原因在于内核在ip_rcv_finish函数做路由检测时,被丢弃了:

3995 drops at ip_rcv_finish+19b (0xffffffff8176e29b)
2 drops at __netif_receive_skb_core+2c9 (0xffffffff81730369)
4063 drops at ip_rcv_finish+19b (0xffffffff8176e29b)
200 drops at ip_rcv_finish+19b (0xffffffff8176e29b)
1 drops at sk_stream_kill_queues+57 (0xffffffff81723c87)
1 drops at tcp_v4_rcv+80 (0xffffffff817943b0)

解决这个问题有两个办法:1.设置路由策略;2.关闭rp_filter

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

酷咪哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值