论文阅读笔记-Evaluating Explanation Methods for Deep Learning in Security


在这里插入图片描述

前言

出处: Warnecke, Alexander, et al. “Evaluating explanation methods for deep learning in security.” 2020 IEEE european symposium on security and privacy (EuroS&P). IEEE, 2020.
代码资源: https://github.com/alewarne/explain-mlsec
一句话说明: 这篇论文提出了多个面向安全领域的模型可解释方法评价标准,其提出的指标被多篇安全领域的XAI工作引用,如xNIDS和INSOMNIA等


4. Evaluation Criteria

本文将安全领域的XAI评价指标分为两大类:通用指标General Criteria和安全领域专用的Security Criteria。在正式介绍各指标之前,本节首先解决了这样一个问题,来表明提出统一的评估标准的重要性。

所评估的方法是否会提供不同的解释结果?
即,所评估的方法是否会提供不同的解释结果?这个问题之所以重要,是因为如果不同方法产生的结果是一样的,比较的标准就不那么重要了,在实践中可以选择任何合适的方法。
所以,为了回答这一问题,本节首先提出一个叫做交叉点大小intersection size的计算指标,用于衡量不同解释方法的相似性。计算方法如下:
交叉点大小指标:衡量不同解释方法的相似性
结果如下图所示。可以看到,不同解释方法所发现的特征并不一致,因此,这些方法不能简单地互换,并且需要可测量的评估标准。
不同解释方法的相似性比较

通用指标一:Descriptive Accuracy描述准确性

该指标反映的是解释方法捕获与预测相关的特征的准确程度,通过移除相关特征的方式,比较移除后预测与原始预测的差异。假设解释方法给出了k个与预测相关的特征,首先移除这k个特征(置为0),然后获取模型对于修改后样本的预测。
理想情况下,移除相关特征将使模型的预测准确率降低(误分类增多)。因此,如果模型预测准确率急剧下降,则表明解释方法越好,因为删除的特征捕获了更多的预测上下文。
Descriptive Accuracy描述准确性
关于实验,作者给出了在VulDeePecker数据集上,使用DA评估IG和LIME的结果
使用DA评估IG和LIME

注:该指标通常作为保真度fidelity实验的衡量指标(xNIDS)
在本文中,修改原始样本的方式只有一种方式,即将k个特征置为0。但是xNIDS中,作者发现这对良性样本的作用不大,修改k不太影响对良性样本的预测。因此定义了两种修改k的方式:①对于异常样本,与本文一样,将k个特征置为0;②对于良性样本,参考LEMNA的保真度测试方法,通过用距离最近的异常样本中的相应特征替换良性样本的前k个特征,观察预测是否改变

通用指标二:Descriptive Sparsity描述稀疏性

**解释的稀疏性是指所选择的特征尽可能少。因为人类分析师只能处理有限数量的特征,解释方法所筛选出来的特征需要满足“关键且少量”**的原则,以尽可能降低工作量。因此,定义了一个叫做 Mass Around Zero (MAZ) 的指标来衡量解释的稀疏性。具体流程为:将相关特征的值缩放到[-1,1],计算它们的归一化直方图 h,然后计算MAZ。
稀疏性指标MAZ
MAZ 可以被认为是一个从 0 开始并向 x 轴的正负方向均匀增长的窗口。 对于每个窗口,评估位于窗口中的相关值的分数。 稀疏解释的 MAZ 急剧上升接近 0,并且在 1 附近持平,因为大多数特征未标记为相关。 相比之下,密集的解释具有接近 0 的显着较小的斜率,表明有更多的相关特征。 因此,MAZ 分布峰值为 0 的解释方法应该优于分布不太明显的方法。
稀疏性评估

作者给出了一个稀疏解释和密集解释的示例,评估方法是LRP和LEMNA。如表4所示,LRP 提供了较为清晰的表示,而 LEMNA 将整个快照标记为相关。 如果我们将相关向量归一化为 [−1, 1] 并关注高于 0.2 的特征,LRP 仅返回 14 个相关特征进行调查,而 LEMNA 返回 2,048 个特征,这表明LRP比LEMNA具有更好的稀疏性。

作者最后强调,这两个通用指标是不相关的,必须同时满足。因为将所有特征标记为相关,同时突出显示少数特征的方法可能是准确的,但显然并不稀疏。 反之亦然,为极少数无意义特征分配高相关性的方法是稀疏的但并不准确。

安全指标一:Completeness完整性

在安全系统中,解释方法必须能够在所有可能的情况下产生正确的结果。完整性的定义为:如果解释方法能够为预测函数的所有可能输入向量生成非退化解释,则该解释方法是完整的。
在这里插入图片描述
对于完整性指标,白盒方法一般由于黑盒方法,因为它们直接根据神经网络的权重计算相关向量。对于黑盒解释,如果其使用随机扰动来近似预测函数 fN(如shap),它可能无法得出 fN 的有效估计并返回退化的解释。
下面给出了一个白盒方法Gradients和黑盒方法SHAP的示例。
在这里插入图片描述
作为这个问题的一个例子,表5显示了由Drebin数据集的一个良性Android应用程序的方法beneficent和SHAP生成的解释。默认解释将触摸屏功能与启动器类别和互联网权限结合起来,作为良性分类的解释。然而,SHAP创建了一个零的解释,没有提供任何见解。这种退化解释的原因是源于SHAP使用的随机扰动。通过翻转特征的值,这些扰动旨在改变输入的类标签。由于在Drebin+的情况下存在比恶意特征多得多的良性特征,扰动可能无法切换标签并阻止线性回归工作,从而导致退化的解释。
注:该指标没有给出定量计算的方法及公式

安全指标二:Stability稳定性

**可靠性是指,相关特征必须不受波动的影响,并需要随着时间的推移保持稳定,以便对专家有用。**定义是,如果生成的解释在多次运行之间没有变化,则解释方法是稳定的。
在这里插入图片描述
衡量方法如下。(这里的i,j是指一个方法的多次运行,跟前面定义的intersection size不太一样哦,前面的i,j是指两种不同的解释方法。)解释方法的稳定性可以通过多次运行方法并计算平均交叉点大小来经验性地确定。
在这里插入图片描述
一般来说,白盒方法要比黑盒方法稳定。因为白盒方法在构造上是确定性的,它们执行固定的计算序列来生成解释。然而,大多数黑盒方法需要随机扰动来计算其输出,这可能导致相同输入的不同结果。例如,表6显示了在两次运行中来自Mimicus+数据集的PDF文档的LEMNA输出。第一轮中一些最相关的特征在第二轮中几乎没有相关性,反之亦然,使得解释不稳定。
在这里插入图片描述

安全指标三:Efficiency解释效率

在实际中,需要在合理的时间内提供解释,尤其是当面对大量样本时。因此定义了效率指标。
在这里插入图片描述
由于工作流依赖于特定的安全任务,所以文中没有定义具体的时间要求和计算方法,但给出了一个负面示例。LEMNA的运行时间取决于输入的大小,对于拥有530000个特征的DAMD数据集的最大样本,计算解释需要大约一个小时,这严重阻碍了检查Android恶意软件的工作流程。

安全指标四:Robustness鲁棒性

鲁棒性是指解释方法抵御攻击的能力。一些攻击[14,44,55]已经表明,解释方法可能会受到对抗性扰动的影响,并且可能会被欺骗返回不正确的相关特征,从而不能正确解释模型行为。
在这里插入图片描述
文中没有给出鲁棒性的定量计算方法。


总结

第四部分(各种评价标准的定义和计算方法)写完啦。这个专栏是督促自己在读论文的时候及时整理笔记以便回顾,所以可能会根据自己的需要着重记录或淡化某些部分。后面的再慢慢更新~

  • 16
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值