关于汽车的安全架构设计大家可能就会想到fail-safe , fail-operational,
fail-safe-失效安全
对应架构设计的基本原则是系统及其主要组成部分,如传感器、电子控制单元和执行器由各种诊断功能监控,如果发生故障,系统将关闭(shut/cut off)以使系统进入安全状态,这意味着要系统要赶在发生危害事件前进入安全状态,所以fail-safe的FTTI指标应被合理的定义。
可能低级别(L2级)自动驾驶车辆相关的安全ECU大都是fail-safe设计,失效安全的系统不表示系统不会失效或是不可能失效,失效安全的系统是指系统的设计在其失效时避免或减轻其不安全的结果。
例如,针对防止单体过充这个安全目标,当BMS检测到单体过压时断开(cut off)高压回路使电池包系统进入安全状态;或者当激光雷达(LiDAR)控制单元检测到发送模块温度超过预设的安全限值时,控制停止激光发射和电机停转使雷达进入安全状态。
在机械安全领域fail-safe的设计尤其常见。
-
fail-operational — 失效可运行
在系统出现故障的情况下,如果系统无法通过功能关闭来到达安全状态,则有必要使系统继续运行并维持在可控的活动状态。
例如线控制动系统,这是一种需要保证高可用性的安全系统,其故障和关闭制动功能导致的结果一样,故此系统不能通过功能关闭来达到安全状态,而是要保证制动功能故障后系统可运行。
对于SAE Level 3,尤其是SAE Level 4及以上,通过深思熟虑的精巧的解决方案对于功能安全、系统可用性和失效可运行相关的系统冗余是必要的。
根据SAE Level 3,驾驶员不能立即接管车辆的控制,并且根据SAE Level 4,驾驶员不能被视为系统后备(fallback)。
车辆上有很多冗余设计的例子,比如车大灯和尾灯的冗余设计、货车的双轮胎设计等。除了冗余,可靠性设计中的降额设计也是一个非常好的设计手段,它能降低系统失效率,提高系统寿命,使系统对故障的容忍度更高,对系统的可靠性、可用性和安全性似乎都能做出贡献。
-
fail-silent — 失效静默
这个概念有点类似机械安全领域的机制,传统IT服务器操作系统容错架构设计也用到过这个概念,即调用服务失败后,就默认该服务一定时间内无法再对外提供服务,不再向它分配请求流量,将错误隔离开来,避免对其他服务产生影响。
例如,经常超时的服务可以使用faile-silent容错机制,防止请求堆积而消耗大量的线程、内存、网络等资源,进而影响到整个系统的稳定。
按照这个解释,如果将这个机制放到汽车电子控制器或系统上,那fail-silent就类似fail-safe了。例如,使用多传感器融合的自动驾驶系统,当ADU(Autonomous Driving Unit 自驾控制器)没法收到激光雷达(LiDAR)的点云数据或收到标记为错误的点云数据时,停止LiDAR的点云数据收、发请求,并标记LiDAR为故障状态,此时ADU应动态调整为使用剩余传感器数据的融合作为感知层的数据,LiDAR的故障没有清除前其控制器本身及与ADU的收发路径(如,Ethernet, CAN)应处于fail-silent状态。
简单理解,当智能驾驶域控中的某个冗余通道故障时,处于fail-operational的目的,将该故障通道功能抑制/静默,此时该故障通道就处于fail-silent状态