FSA: An Efficient Fault-tolerant Systolic Array-based DNN Accelerator Architecture
FSA:一种高效的容错脉动阵列 DNN 加速器架构
一、文章简析
在深度神经网络(DNN)加速器中,永久性故障尤其具有挑战性,因为它们可能导致推理错误和性能下降。为了解决这些问题,FSA架构提出了统一的重新计算模块(RCM),通过动态重新计算故障处理单元(PEs)应完成的计算,来保持DNN推理的准确性和性能。
注意:这篇文章关注点在于永久性故障
二、Intro
-
永久性故障的影响:
- 在基于Systolic阵列的DNN加速器中,永久性故障会显著影响DNN推理的准确性。
-
现有的解决方案:
- 软件解决方案:一些解决方案通过重新训练整个DNN模型来更新每一层的权重矩阵,另一些则避免使用有缺陷的PE进行关键计算。
- 缺点:重新训练的模型和新的映射策略在添加约束条件后(如避免多个故障PE带来的不规则数据流)不太可能收敛。
- 软件解决方案:一些解决方案通过重新训练整个DNN模型来更新每一层的权重矩阵,另一些则避免使用有缺陷的PE进行关键计算。
这里文章里说重新训练,其实我个人有点不理解,有些PE不能用了,直接告诉操作系统 或者发送指令的时候不用这些PE不就好了吗?
一些可能的猜测是,在某些研究中,重新训练DNN模型是为了调整模型参数,使其能够适应由于硬件故障(如PEs故障&