本周粗略阅读了论文《Input Prioritization for Testing Neural Networks》,该论文研究了通过DNN的三种情绪指标(sentiment)来对测试输入进行优先级排序的有效性,对今后的研究方向有一定提示。例如,我们可以将文中提到的这些情绪指标糅合到自己的优先级排序方法中,或者将这些指标进行结合,比较它们的效果等等。
由于阅读的是英文原文,有一些词汇不知道如何翻译,所以在括号后标注了原单词。如有不当,欢迎指正。
主要工作:
本文从模型执行的计算中得到 DNN 的情绪量表(sentiment),用于识别可能揭示模型弱点的输入。
据此,评估了三种此类情绪指标——置信度(confidence)、不确定性(uncertainty)和惊喜性(surprise)。结果表明,可以有效标记暴露不可接受的 DNN 行为的输入。
对于 MINIST 模型,正确标记的输入的平均百分比范围为 88% ~ 94.8%。
思想:
将更高的优先级分配给不确定或令人惊讶的输入(因为更可能揭示模型的错误行为)。
相关技术:
三种检查神经网络内部计算以捕获情绪的技术:
-
softmax输出作为置信度预测:
可直接从softmax输出计算优先级分数。
-
贝叶斯不确定性:
将估计的不确定性用作分数来确定优先级。
-
输入惊喜性:
相关概念:惊喜充分性(SA,Surprise Adequacy)
高度惊喜可能表明模型没有为输入做好充分准备,因此获得高分。
实验设计:
比较以上三种优先级方法的性能:
-
softmax
-
具有10个和100个蒙特卡洛采样样本的贝叶斯dropout
-
在最后一层和最后两层测量的基于距离的惊喜充分性(DSA)