如何对深度学习模型可视化效果进行评估?

可视化效果评估用于度量不同方法的解释效果,指导用户针对特定任务选择合适的可视化方法。具体来讲, 可从以下两个方面对可视化效果进行评估: 有效性和鲁棒性。

有效性

定性评估

定性评估方法在表征可视化研究的早期被经常使用, 依靠人的视觉感观来评价解释结果是否符合人的认知。由于定性评估具有简单直观、便于理解等优点, 至今仍广泛使用。常用的定性度量标准有以下 3个。

1) 视觉连贯性。热力图需要关注感兴趣的目标区域,忽略其他不相关区域。在视觉连贯性标准下, 热力图中突出的区域对感兴趣目标的覆盖越全面、 冗余部分越少, 表明可视化效果越好。

2) 视觉可分辨性.

热力图需要与预测结果中的不同类别相对应,这对于含有多个不同类别目标的图像来说至关重要。例如在同时含有“Dog”和 “Cat”的图像中, “Dog”的热力图应该聚焦与之对应的图像区域,而尽量去除与“Cat”相关的区域。视觉可分辨性对应于可视化方法的类别区分性特点, 用于评估热力图能否针对特定类别进行可视化, 以定位仅与该类别其相关的区域和特征。

3) 多目标可视化。

当多个同一类别的目标同时出现在图像中时, 可视化方法需要同时定位多个目标, 而没有遗漏其中的某个目标。此外, 解释结果的客观性也应作为一种评价可视化方法有效性的标准,即解释结果是否真实的反映了模型的决策依据, 而非按照“预期”寻找到了人类所希望的决策依据。

定量评估

定量评估方法按照某种得分规则, 计算数据集上所有图像的可视化结果的平均得分, 从而定量比较各方法的优劣。3种典型的定量评估方法:

1) 弱监督目标定位。

使用目标定位任务的指标来评价可视化方法的目标定位效果。比如按照设定的阈值处理热力图以生成边框, 然后和真实边框进行比较, 计算IoU。对于某个定位结果, IoU > 0.5表示成功定位该目标,以此在整个数据集上计算定位准确率。该方法多用于评价CAM这类目标区分性较好、具有区域级可视化效果的方法。

2) 指向游戏

对于特定类别目标的热力图,计算其最大激活值是否落入该类别的一个实例的边框中, 若落入则计入指向成功1次,否则不计入,以此计算每个目标类别的定位准确率。最终使用不同类别的平均准确度作为度量标准。指向游戏只考虑热力图的最大值点, 无需突出特定目标的全部区域, 仅需对热力图最少量的后处理, 这样对不同特点的热力图更公平。其可能的缺点在于热力图自身的噪声问题, 最大值点可能来自极值噪声点, 导致评价结果产生误差。

3) 随机性检验。

用于评估可视化方法的适用范围和解释质量。分为两种随机化检验: 一种是模型参数随机化, 使用随 机化模型参数和预训练模型参数加载模型, 对比这两种情形下可视化方法的输出变化, 以检验该方法 是否对模型参数敏感; 另一种是数据随机化, 对训练数据标签进行随机化打乱并重新训练模型, 与未 打乱标签的可视化结果进行对比, 检验该方法是否对训练数据标签敏感。

鲁棒性

可视化方法的鲁棒性与CNN模型的鲁棒性不同。CNN模型的鲁棒性是指模型的预测结果不会因为对抗攻击而发生明显变化。可视化方法的鲁棒性是指在面临对抗攻击时, 可视化方法仍能够提供准确有效的解释。为此可以将对抗攻击分为以下2种情形: 1) 攻击模型预测结果, 测试解释结果是否随之改变; 2) 攻击解释结果, 测试其是否会被误导。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值