教程篇(7.4) 08. 高可用性 & 网络安全支持工程师 ❀ FORTINET认证解决方案专家

  在本课中,你将学习如何监控高可用性(HA)集群的状态,配置会话同步,以及如何使用HA问题的故障排除步骤和命令。

 完成本课后,你应该能够实现上图显示的目标。

  通过展示理解HA的能力,你将知道如何监控HA集群的状态,配置会话同步,以及诊断和解决HA集群问题。

 在本节中,你将学习如何监控HA集群中设备之间的HA配置状态。

 HA框架由两个守护进程组成:hatalk和hasync。

  进程hatalk监控集群管理和故障监控。该进程hasync处理配置文件、升级过程、IKE通知、外部文件、地址解析协议(ARP)表和转发信息库(FIB)的同步。

  hasync进程使用其他进程来实现其目的,如配置守护进程cmdb、update、iked、authd和snmpd。

 HA心跳由内核生成。这赋予了此流量优先权,而不是其他类型的数据包。HA心跳数据包被优先考虑,以保证HA集群和流量的运行状况。

  diagnose sys ha heartbeat命令用来显示处理心跳的CPU核数及其分布情况。

  在config system ha下配置hbdev接口,该接口分配发送和接收ha心跳的接口。

  作为心跳数据包内核处理的一部分,内核向hatalk守护进程发出心跳数据包的存在信号进行处理。

  进程hatalk对HA数据包应用时间戳,该数据包处理并执行diff time函数,以监控它是否已达到可能触发HA心跳超时的hb丢失阈值。

  如果心跳间隔比默认值短,HA心跳数据包会消耗更多的带宽,但如果心跳间隔非常长,则集群对拓扑变化和其他网络变化不那么敏感。

 如果HA集群成功形成,GUI将显示所有FortiGate成员及其主机名、序列号、角色、正常运行时间和同步状态。

 如果HA集群形成,但配置未同步,集群成员的GUl工具提示会显示其配置中不同步的部分。

 在对HA进行故障排除时,你可能需要从你当前连接的成员的CLI连接到另一个成员的CLI。你可以使用execute ha manager命令连接到其他成员来执行此操作。

  例如,当你使用任何集群虚拟IP地址通过SSH连接到集群时,你将连接到主成员。如果你想连接到另一个成员,你可以使用execute ha manage命令访问其CLI。

  此命令要求你注明要连接的成员的ID和登录时使用的用户名。要获取成员ID列表,你可以在execute ha manager命令的末尾添加一个问号,如上图所示。

  请注意,当你切换到另一个成员的CLI时,FortiGate会通过心跳接口为该成员建立SSH会话。然后将SSH会话封装在以太网帧类型0x8893中。

 使用CLI,你可以获得有关HA状态的更多信息。例如,上图显示的命令显示心跳流量统计数据,以及每个FortiGate的序列号和HA优先级。此命令还显示自动分配给主FortiGate的心跳接口的IP地址。 

  你可以使用上图显示的命令来显示以下信息:

  ● HA健康状态

  ● 集群正常运行时间

  ● 选择主设备的条件

  ● 覆盖状态

  ● 被监控接口的状态

  ● HA ping服务器的状态

  HA正常运行时间是用于选择主设备的变量之一。根据其他变量和配置,设备可能会比较其系统正常运行时间来选择主运行时间。如果发生这种情况,如果有一个成员的系统正常运行时间比所有其他设备的系统正常运行时间多5分钟,则该成员被选为主要成员。你可以使用此命令来比较集群中所有设备的系统正常运行时间。

  reset_cnt值显示了使用命令diagnose sys HA reset-uptime重置HA正常运行时间的次数。

  配置同步的状态是HA集群运行状况的良好指标。为了验证所有从配置是否与主配置同步,你可以在所有HA设备上使用上图显示的命令。如果从FortiGate显示与主FortiGate相同的数字序列,则其配置是同步的。此外,只要没有发生配置更改,在每个设备上,debugzone和checksum必须显示相同的数字序列。在本课中,你将学习一些在情况并非如此时进行故障排除的技巧。

  你可以仅在主设备上使用上图显示的命令,而不是在每个集群设备上使用checksum show命令。它显示所有集群成员的校验和。此命令更容易使用;但是,如果其中一个从设备和主设备之间存在通信问题,你可能需要改用checksum show命令。

  命令checksum show允许你深入到不同的级别。

  它可以提供全局级别的通用校验和,包括在FortiGate上配置的所有VDOM,以及提供特定VDOM的校验和或VDOM中特定配置部分的校验和。

  当你需要识别哪个设置触发了不同步问题时,这些不同的级别在对HA集群进行故障排除时非常有用。

 在本节中,你将了解HA集群中设备之间的会话同步。

 默认情况下,HA会话同步被禁用。大多数会话都可以恢复,这是TCP/IP通信在网络中断后恢复通信的正常结果。在启用会话拾取之前,你应该平衡流量要求和性能影响。

  如果你启用HA同步,由于主设备将会话与次设备同步,因此会发生一些会话要求和限制。在理想条件下,所有TCP会话都应恢复。

  你可以选择为无连接的ICMP/UDP和短暂会话启用会话同步。

  在将会话同步到从设备时,主设备遵循一些标准。

  默认情况下,一旦启用会话拾取,一旦将新的TCP会话添加到主设备会话表中,该会话就会同步到集群中的所有设备。这种同步尽可能快地发生,以保持会话表的同步。

  如果有会话状态更新或会话被删除,就会发生触发会话表同步从主设备到集群中其他设备的其他事件。

  大多数会话同步通信来自主设备到集群中的其他设备;从设备向主设备发送有关会话计时器更新的查询。

  默认情况下,会话同步活动使用TCP/703和UDP/703数据包通过HA心跳链接进行。

  使用get sys ha status命令查看会话拾取是否开启。HBDev stats部分应该显示接收(RX)和发送(TX)计数器正在递增。

  如果有大量的会话同步,这可能会导致网络拥堵并影响HA集群通信。一个选项是选择一个或多个端口用于同步会话,这可以改善HA心跳流量和HA集群的性能。

 你可以查看主设备的会话表,查看哪些会话已同步到从设备。他们有同步标识。此外,在所有会话的情况下,ha_id字段显示正在处理流量的设备的HA成员ID。

  在本节中,你将了解一些HA故障排除步骤和命令。

  有五种情况可以触发故障转移:

  ● 当从设备停止接收来自主设备的心跳你好数据包时。

  ● 当主FortiGate上受监控接口的链接状态下降时。你可以配置HA集群来监控一个或多个接口。如果主FortiGate上的受监控接口被拔掉,或者其链接状态下降,则会选择一个新的主FortiGate。

  ● 当服务器(IP地址)停止回复主设备发送的ping时。你可以配置HA集群,定期向一个或多个服务器发送ping,以测试主设备和网络服务之间的连接。如果所有失败接口的累积惩罚达到配置的阈值,主FortiGate将失败。

  ● 当FortiOS检测到SSD出现故障时。如果FortiOS在主FortiGate上的SSD上检测到Ext-fs错误,则会触发故障转移。这仅适用于带有SSD的设备。

  ● 当启用基于内存的故障转移,并且在监控周期内的每个样本中配置的利用率条件超过阈值时。

  有多个事件可能会触发HA故障转移,例如主FortiGate上的硬件或软件故障,或主FortiGate上的其中一个接口上出现问题。当发生故障转移时,会生成一个事件日志。

  如果发生故障转移,获取故障转移信息的最佳工具是FortiGate日志。如果故障转移是由于主设备出现故障,则从设备日志应显示这些日志条目。

 如果由于一个或多个监控接口失败而选择了新的主控接口,则以前的主控界面会显示与上图显示的日志相似的日志。在上图的示例中,主设备报告了被监控的接口端口1的问题。 

  确定HA故障转移原因的另一种有用方法是运行上图显示的命令。此命令提供了有关过去HA事件的详细信息,允许管理员识别之前故障转移事件的原因。这是一个有用的HA命令,特别是当HA日志不可用时。

  当HA集群中的FortiGate设备通过心跳链接失去心跳通信时,就会发生HA脑裂场景。由于通信丢失,每个FortiGate都扮演主设备的角色。

  当这个问题发生时,结果非常明显,因为流量受到影响。在遇到脑裂问题时,对集群中设备的管理访问是间歇性的;如果需要,可能需要控制台访问来对设备进行故障排除并执行配置更改。

  这个问题可能是由物理端口或电缆故障、固件升级失败或心跳链路拥堵引发的。

  有一些基本的HA故障排除步骤来验证HA集群的运行状况,并使集群摆脱这种情况:

  1. 验证集群中的所有设备是否运行相同的固件版本。

  2. 检查配置是否同步。

  3. 验证心跳端口的状态。

  4. 验证以太网数据包是否在集群成员之间成功传输和接收。

  遵循这些步骤将有助于诊断引发这种行为的根本原因。

  如果设备无法加入集群,请按照以下步骤操作:

  1. 检查HA设置。

  2. 确认固件版本和硬件型号。

  3. 验证物理层连接。

  4. 当设备尝试加入集群时,使用HA实时调试。在主设备和有问题的设备上运行调试。

  如果问题是调试区和校验和区之间的校验和不匹配,你可以尝试通过强制重新计算来修复它。

  来自会话同步的流量是带宽密集型的。如果会话创建率高,会话同步流量可能会干扰心跳流量,造成心跳回复延迟。你可以进行两个配置更改,可能会有所帮助:

  ● 使用与心跳接口不同的接口进行会话同步。

  ● 将新会话的同步延迟30秒,因此短的会话不会同步。

  高CPU问题也会造成HA心跳问题。在这些情况下,在检查HA状态之前,请先对高CPU问题进行故障排除并修复。

  上图展示了你在本课中涵盖的目标。

  通过掌握本课中涵盖的目标,你将学习如何监控HA集群以及对在HA中运行的FortiGate设备进行故障排除的步骤。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值