A003 - 基础 - 堆叠与集群

将多台物理设备在逻辑上虚拟成一台设备,用于构建无环的园区网络的技术叫做堆叠(iStack)和集群(Cluster Switch System CSS).

堆叠是一种较通用的技术,非常适合在接入层增加接口或在汇聚层提供冗余,可以节省上连的线缆铺设并提供冗余,在做好分裂的检测功能和使用环形线路后,基本上不会出现太大的问题,但维护的难点在于升级,因为涉及到多台设备,所以升级较易造成网络的中断。

而集群则是在核心侧所做的一种多虚一的技术,是对堆叠做了一些私有的扩展,这种技术目前各个厂家是完全不同的,华为是 CSS, H3C 是 IRF, 如果用到就需要依据厂家的官方文档,进行配置或维护。

一. 堆叠

堆叠适用于盒式交换机,用于端口数量的扩展及高可用。

1.1 基础概念

交换机角色: 主交换机(Master),备交换机(Standby),从交换机(Slave),选举原则:

  • 先启动设备(20s内无新设备)为主设备,后面不会抢占;
  • 同时启动时,设备优先级高,然后 MAC 地址小的优先竞选主交换机,次优的为备交换机,其他为从交换机。

堆叠 ID:

  • 缺省为 0,如果堆叠组中存在冲突,则由主交换机从新分配。

堆叠逻辑接口:

  • 交换机支持两个逻辑口 port1 和 port2,每个 port 可以包含多个物理接口;
  • 不同交换机间逻辑口互联的对应关系为 port1-port2 或 port2-port1, 否则连接出错,接口会进入 Error-Down 状态。

1.2 启动过程

交换机按照一定的物理拓扑(使用堆叠卡/业务口组成链型/环形)连接并启动后:

tips: 错误的配置或成员超阈值,则对应的逻辑口会进入 Error-Down 状态。

  1. 主交换机选举: 设备间发送堆叠竞争报文竞争 Master;
  2. 拓扑信息收集与备交换机选举: Master 在此过程中收集拓扑信息,分配堆叠 ID,指定 Standby;
  3. 软件和配置同步: 其他成员与 Master 同步软件和版本,系统进入稳定态。

1.3 维护堆叠

设备故障:

  • Master 故障: Standby 变为 Master,然后再选举 Standby,重新计算拓扑并同步其他成员,进入稳定态;
  • Standby 故障: Master 重新指定 Standby 并重新计算拓扑并同步其他成员,进入稳定态;
  • Slave 故障: Master 重新计算拓扑并同步其他成员,进入稳定态。

设备新增:

  • 未上电设备新增: 选举为 Slave 并分配 ID, 重新计算拓扑并同步其他成员,进入稳定态;
  • 堆叠合并: 堆叠组间相互竞选,竞选失败则重启以未上电设备形式加入高优先堆叠组。

堆叠分裂:

堆叠分裂常见于链式堆叠中,会引起 IP 及 MAC 地址(10min 内堆叠组 MAC 地址不切换)的冲突,并造成环路;

  • 直连线路 MAD(Multi-Active Detecting) 检测:
    • 正常时不发送 MAD 报文,分裂后以 1d 的时间间隔发送 MAD 报文;
    • 设备间竞选 Detect 和 Recover 角色,Detect 正常工作,Recover 除保留接口外全部关闭;
  • 代理检测 MAD(Multi-Active Detecting):
    • 在 Eth-Trunk 上启动代理(堆叠中所有设备均需属于这个 Eth-Trunk),其将代理转发 MAD 报文完成检测;
    • 稳定态时以 30s 为间隔检测,拓扑变化时,以 1s 为间隔检测。

主备倒换:

  • 可以手工配置或通过重启的方式进行;

设备升级:

  • 智能升级: 新成员交换机自动同 Master 版本同步;
  • 传统升级: 所有设备断电,然后直接升级 Master后,启动其他设备;
  • 平滑升级: 将堆叠划分为 active 和 backup 区域按照区域升级。

1.4 配置命令

配置命令:

# 配置逻辑接口
interface stack-port member-id/port-id
port interface { interface-type interface-number1 [ to interface-type interface-number2 ] } &<1-10> enable
# 配置堆叠ID
stack slot slot-id renumber new-slot-id
# 配置堆叠优先级
stack slot slot-id priority priority
# 配置直连 MAD 检测
[Gi0/0/1] mad detect mode direct
# 配置代理 MAD 检测-堆叠组中所有设备
interface eth-trunk trunk-id
mad detect mode relay
# 配置代理 MAD 检测-对端代理设备
interface eth-trunk trunk-id
mad relay
# 若两个堆叠组系统互为 MAD 代理,则需额外配置 domain
mad domain domain-id
[Huawei] interface eth-trunk trunk-id
[Huawei-Eth-Trunk1] mad detect mode relay
[Huawei-Eth-Trunk1] mad relay

维护命令:

# 主备倒换
slave switchover
# MAC 地址切换时间
stack timer mac-address switch-delay delay-time # 默认 10min
# 强制切换
undo stack timer mac-address switch-delay
# 清除所有堆叠的配置-设备重启后,可用在专用的堆叠线堆叠之前的配置清除或变为单台运行时
reset stack configuration

查看命令:

# 查看堆叠的成员
display stack [ member member-id ]
# 查看堆叠配置信息
display stack configuration [ member member-id | all ]
# 查看堆叠拓扑信息
display stack topology [ link | neighbor ]
# 查看堆叠故障时间信息
display stack troubleshooting [ member member-id ] { current | history }
# 查看堆叠链路协议 Down 的原因
display stack link-state last-down-reason

二. 集群

集群(cluster)是两台支持集群特性的交换设备的组合,适用于框式设备,实现上与堆叠稍有差距,但功能相同。

2.1 基础概念

交换机角色: Master/Standby;

CSS ID: 标识交换机, 手工配置, 相同则无法建立集群;

CSS Link: CSS 链路,专用于组件集群;

CSS Priority: 角色选举。

2.2 集群类型

主控板的冗余顺序分别为主交换机-主主控板,主交换机-备主控板,备交换机-主主控板,备交换机-备主控板。

物理连接:

  • 传统 CSS:
    • 使用集群卡后业务口建立集群连接
    • 业务口组网方式:
      • 1+0 方式: 每台成员一个逻辑 CSS 口,物理成员在一个业务板上;
      • 1+1 方式: 每台成员两个逻辑 CSS 口,物理成员在两个业务板上;
    • 任意接口板间的流量需要经过主控板来处理,主控压力大。
  • CSS2:
    • 使用单独的集群卡来组件集群;
    • 转控分离的架构,业务板间的流量不经过主控板处理;
    • 只要有任意一个主控板是正常的,就不会又异常,为 1+N 备份.

2.3 集群配置

# 配置集群 ID
[Huawei] set css id new-id
# 配置集群逻辑接口
[Huawei] interface css-port port-id 
[Huawei-css-port1] port interface { interface-type interface-number1 [ to interface-type 
interface-number2 ] } &<1-10> enable
# 配置集群优先级
[Huawei] set css priority priority
# 基础配置结束后,启动 css,会提升重启交换机
[Huawei]css enable
# 设置集群的连接方式
[Huawei] set css mode { lpu | css-card }

三. M-LAG 与 VPC

3.1 堆叠和集群的问题

  1. 升级操作复杂度高、风险高、中断时间长(华为给出的时间是20s-60s左右);
  2. 控制面集中,性能受到了限制,且设备间的耦合性高,故障有扩散的风险;

3.2 M-LAG 与 VPC 介绍

  1. M-LAG(Multichassis Link Aggregation Group) 是一个标准协议,VPC 是 Cisco 私有的协议;
  2. 这是两种有别于堆叠的横向虚拟化,一样可以实现设备级、单板级和链路级的冗余保障;
  3. 在逻辑上仍然是两台设备,他们只是通过协议协调对单播、组播、广播流量的转发,以此保证无环和冗余;
  4. 解决了堆叠和集群的问题,控制平面是分散的,单台升级容易,升级不会造成网络长时间中断,一般为秒级;
  5. 但相对于堆叠和集群来说,它的复杂度更高些,因为设备在逻辑上仍然是两台不同的设备,这是唯一的劣势。

参考:

华为堆叠配置调试: https://support.huawei.com/enterprise/zh/doc/EDOC1100198811/971c0ad8

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值