2020年,NASA计划在月球门户(lunar Gateway)空间站的动力和推进系统(PPE:Power and Propulsion Element)中使用TTE技术。由此,我们再次认识到,与目前业界广泛关注的TSN技术相比,TTE技术更加成熟,特别是在冗余和容错机制方面的设计更加完善。
TTE系统的容错方法主要包括集中守护(Central Guardian)、输出监测(COM/MON),以及高完整性时间同步等。我们将陆续对TTE系统的容错技术进行介绍,并分享芯准TTE设计中的容错机制实现方法,欢迎读者批评指正。
本文主要分析TTE的集中守护机制及其实现技术。
1、集中守护的目标
TTE容错设计的基本方法是将每个TTE网卡和TTE交换机都看成独立的故障抑制单元FCU(Fault Containment Unit),只考虑FCU边界的失效模式并进行相应的容错设计,而不考虑网卡和交换机内部的容错设计问题。
TTE网络的FCU边界(即网卡到交换机,交换机到交换机,交换机到网卡)可能出现静默失效、遗漏失效、非一致遗漏失效以及任意失效(拜占庭失效)等多种失效模式。在TTE交换机的每个输入接口部署集中守护逻辑(G),对TTE端系统网卡接收帧的时域和值域的合法性进行检查,避免端系统故障导致的错误帧进入交换机,从而抑制故障的传播。