作者:18届 cyl
日期:2021-08-15
论文:《Unmasking Clever Hans predictors and assessing what machines really learn》
聪明的汉斯: 聪明的汉斯是著名的观察者期望效应的例子,观察者期望效应(Observer-expectancy effect)是认知偏见的一种。在科学实验中,由于观察者预期某些测试结果,于是无意识地以某种形式操纵了实验步骤,或错误解释实验结果以达至他们希望得到的结论。观察者期望效应能严重歪曲实验结果,因此需利用双盲方式进行实验来消除这效应。
很多实验经常是受观察者期望效应影响而出现奇怪结果,尤其在以人类为对象的实验。观察者期望效应最常出现于超自然现象研究。
聪明汉斯(Clever Hans)是著名的观察者期望效应例子。汉斯是一匹懂得算术和做出各式各样惊奇技能的马,而事实上汉斯不是真的懂得算术,而是靠训练员和观察者无意识下给予的暗示(例如:表情、姿势)得出正确答案。
在另一实验,实验人员事先告诉一群小孩他们培养了两个实验老鼠品种:一种聪明,一种呆笨,然后安排小孩观察老鼠逃离迷宫。小孩报告聪明品种老鼠比呆笨品种老鼠更快逃离迷宫,而事实上所有实验老鼠只是随机挑选出来而已。
背景: 机器学习和深度学习技术在很多领域都取得了成功,但是现有的机器学习算法的评价指标往往不能保证机器学习技术学习到了有效的策略或者特征,也就是说机器学习算法有可能只是像“聪明的汉斯”一样,只是学习到样本和分类结果之间某种无意义的关联,而不是学习到了真正的智能。本文提出了一种半自动化的谱系相关性分析方法,为描述和验证非线性的机器学习算法的行为提供了一种切实有效的方法。这有助于评估所学习的模型是否学习到了人们所期望的特征。
文章的出发点是机器学习算法或者深度学习技术训练出的模型虽然能够有很高的正确率,但是这些模型并没有学习到人们所期望的特征或者策略而是学习到了一些出人意料的“关联、特征、策略”。作者声称通过他们的半自动化的谱系相关性分析方法能够对机器学习算法和深度学习算法中的特征或者说策略进行分析,进而评估哪些特征是良好的,哪些特征是不好的。
文中给出的三个例子:
第一个例子是,在PASVAL VOC2007数据集上训练的FV分类器将 马这一类别图像的左下角的标签作为鉴别性特征。原始数据集中大概有1/5的图片带有这种标签,将左下角的标签图像添加到红色法拉利图像上使FV分类器将跑车的分类从car更改为了horse。如图3所示。
还有就是在训练DNN的时候,由于对飞机类图像的Padding产生了蓝色边框,结果导致DNN将蓝色边框当做了飞机类图像的鉴别性特征。如图4所示。
图3 FV分类器将标签作为鉴别性特征的例子
图4 使用低频区域(正确的颜色)填充可以增加类飞机的预测输出,“甚至可能在第一个位置引入边界伪迹”。
第二个和第三个例子都是强化学习在游戏中的例子。一个是在Atari Pinball game这款游戏中,AI最终学到了通过晃动桌子而不是正常操作flippers来得分。另一个是一个正面的例子,AI在Atari Breakout这款游戏中最终学习到了和人类相似的策略。如图5所示。
图5 AI 在两款游戏中分别学会了作弊和正常的策略。
半自动化的谱系相关性分析方法 的流程如下:
Step1 : 计算感兴趣的样本的关联图。关联图由LRP计算,包含分类器对图像进行分类时所关注的位置信息。这部分的输入是一些样本图像和训练好的神经网络/机器学习模型。输出是类似于热力图的关联图(relevance map)。这部分的输入输出如图1所示。
Step2: 缩小关联图的尺寸,使它们在形状和大小上一致。这种维数的减少加快了后续分析的速度,也使其在统计上更容易处理。
Step3:相关图的谱聚类分析(SC)。这个步骤发现了关联映射分布的结构,更具体地说,它将分类器行为分成有限多的簇。个人认为也可以近似看做将分类器学习到的特征分成了有限个簇。
Step4: 通过特征图分析识别有趣的聚类。SC的特征值谱对相关映射的聚类结构信息进行编码。两个连续特征值(eigengap)之间的差值的显著增加表明集群被很好地分离,包括非典型的分类策略。然后将检测到的少数集群提供给用户进行检查。个人认为这个步骤是手动进行的,可以和可视化结合。
Step5 (可选):t随机邻域嵌入(t-SNE)可视化。严格地说,这最后一步并不是分析的一部分,但是我们在论文中使用它来可视化是谱系相关性分析方法如何工作的。
该方法的整体工作流程如图2所示。
图1 原始图像经LPR计算后得到关联图
图2 谱系相关性分析方法整体流程