Unmasking Clever Hans predictors and assessing what machines really learn：揭露“聪明汉斯”预测变量并评估机器到底学习到了什么？

本文链接：https://blog.csdn.net/cyl_csdn_1/article/details/119713412

作者：18届 cyl

日期：2021-08-15

论文：《Unmasking Clever Hans predictors and assessing what machines really learn》

聪明的汉斯：聪明的汉斯是著名的观察者期望效应的例子，观察者期望效应（Observer-expectancy effect）是认知偏见的一种。在科学实验中，由于观察者预期某些测试结果，于是无意识地以某种形式操纵了实验步骤，或错误解释实验结果以达至他们希望得到的结论。观察者期望效应能严重歪曲实验结果，因此需利用双盲方式进行实验来消除这效应。

很多实验经常是受观察者期望效应影响而出现奇怪结果，尤其在以人类为对象的实验。观察者期望效应最常出现于超自然现象研究。

聪明汉斯（Clever Hans）是著名的观察者期望效应例子。汉斯是一匹懂得算术和做出各式各样惊奇技能的马，而事实上汉斯不是真的懂得算术，而是靠训练员和观察者无意识下给予的暗示（例如：表情、姿势）得出正确答案。

在另一实验，实验人员事先告诉一群小孩他们培养了两个实验老鼠品种：一种聪明，一种呆笨，然后安排小孩观察老鼠逃离迷宫。小孩报告聪明品种老鼠比呆笨品种老鼠更快逃离迷宫，而事实上所有实验老鼠只是随机挑选出来而已。

背景：机器学习和深度学习技术在很多领域都取得了成功，但是现有的机器学习算法的评价指标往往不能保证机器学习技术学习到了有效的策略或者特征，也就是说机器学习算法有可能只是像“聪明的汉斯”一样，只是学习到样本和分类结果之间某种无意义的关联，而不是学习到了真正的智能。本文提出了一种半自动化的谱系相关性分析方法，为描述和验证非线性的机器学习算法的行为提供了一种切实有效的方法。这有助于评估所学习的模型是否学习到了人们所期望的特征。

文章的出发点是机器学习算法或者深度学习技术训练出的模型虽然能够有很高的正确率，但是这些模型并没有学习到人们所期望的特征或者策略而是学习到了一些出人意料的“关联、特征、策略”。作者声称通过他们的半自动化的谱系相关性分析方法能够对机器学习算法和深度学习算法中的特征或者说策略进行分析，进而评估哪些特征是良好的，哪些特征是不好的。

文中给出的三个例子：

第一个例子是，在PASVAL VOC2007数据集上训练的FV分类器将马这一类别图像的左下角的标签作为鉴别性特征。原始数据集中大概有1/5的图片带有这种标签，将左下角的标签图像添加到红色法拉利图像上使FV分类器将跑车的分类从car更改为了horse。如图3所示。
还有就是在训练DNN的时候，由于对飞机类图像的Padding产生了蓝色边框，结果导致DNN将蓝色边框当做了飞机类图像的鉴别性特征。如图4所示。
在这里插入图片描述
图3 FV分类器将标签作为鉴别性特征的例子

图4 使用低频区域(正确的颜色)填充可以增加类飞机的预测输出，“甚至可能在第一个位置引入边界伪迹”。
第二个和第三个例子都是强化学习在游戏中的例子。一个是在Atari Pinball game这款游戏中，AI最终学到了通过晃动桌子而不是正常操作flippers来得分。另一个是一个正面的例子，AI在Atari Breakout这款游戏中最终学习到了和人类相似的策略。如图5所示。
在这里插入图片描述
图5 AI 在两款游戏中分别学会了作弊和正常的策略。
半自动化的谱系相关性分析方法 的流程如下：