【论文笔记】Why Attentions May Not Be Interpretable?

最新推荐文章于 2024-09-12 23:40:25 发布

九二_

最新推荐文章于 2024-09-12 23:40:25 发布

阅读量687

点赞数 1

本文链接：https://blog.csdn.net/qq_43631376/article/details/122860502

版权

深度学习人工智能机器学习

Why Attentions May Not Be Interpretable?

arxiv地址

工作背景

关于attention 机制的可解释性有很强的争议，所以本文作者试图找到影响attention可解释性的根本原因。作者提出根本影响因素之一是 : combinatorial shortcuts(attention除了要高亮重要的part, e.g. tokens, pixels，还会携带一些额外的信息，这些信息可以被下游模型用来做预测)

工作思路：
问题1：
在现有的模型中，Attention的作用真的只是找到重要的tokens(pixels)吗？
解决思路：
首先思考模型过程：attention layer需要对input, $X$ 找到一个权重分布 $M$ ，让后面的modules根据 $X, M$ 来预测 $Y$ ，那么下游模型的预测任务可以表示为 $\mathbb{E}(Y|X, M)$ 。如果attention的作用只是highlight important part，那么需要下游任务 $\mathbb{E}(Y|X, M)$ 能够根据 $X, M$ 正确的计算出 $Y$ ，也就是说这是一个无偏估计（根据X,M估计的Y就是真实的X,M对应的Y）。因为只有下游任务的模型是无偏估计，我们模型的训练目标才是：让attention尽可能地找到正确的M，即从X中找到重要的parts，从而最小化损失： $\min\limits_{m}\mathcal{L}(y,\ \mathbb{E}(y|x,m))$ 。
问题2：
那么下游任务是无偏估计吗？如何分析？
解决思路：
从输入数据着手：如果我们能够获得充足的数据（所有的 $X, M$ 的combination）那么得到的 $\mathbb{E}(Y|X, M)$ 是无偏的。但是实际上这是不可能的。退一步讲，从casual effect estimation的角度分析。如果把 $M$ 的不同采样当作是不同的treatment, $X$ 和 $M$ 的随机combination也可以被证明是提供无偏的期望估计。不管怎么说，需要两类输入 $X, M$ 他们之间是独立的。但是attention机制使得 $M$ 是依赖于 $X$ 的， $M$ 是根据 $X$ 来计算得到的( $M = A t t n (Q, K, V)$ )。因此下游任务的输入是 $X, M$ 的highly selective combination. M是highly related to X(and Y as well)的。
所以，我们学习到的 $\mathbb{E}(Y|X, M)$ 是有偏的。

从整体的训练任务角度来看，因为下游任务是有偏的，attention会找一些有偏的特征来适应有偏的下游任务，因此fail to highlight the essential features。结果就是attention和下游任务共同作用，然后找到了一条意料之外的方法来拟合数据，比如，正样本高亮第一个词，负样本高亮最后一个词。。。作者称这种现象为combinatorial shortcuts。

问题3：
找到了造成attention不可解释的原因，combinatorial shortcuts，如何消除这个影响，使得结果可解释呢？
作者从两个角度提出了两种方法：

找到所有的X,M的combination，先训练下游模型，得到无偏的 $\mathbb{E}(Y|X, M)$ 。然后固定无偏的下游模型，训练attention layer，这样在无偏下游模型的激励下，attention会尽可能找到重要的feature来预测正确的y，最小化损失。
优点：理论完善，理论上可以完全消除combinatorial shortcuts。
缺点：in fact 很难找到全部的combination。
因为实际上所有的combination很难找到，而且大部分的combination对于训练的作用很小，因此另一个角度是如何对现有的数据做一些处理使得它能够recover 我们需要的数据分布.现有的能采样到的三类数据空间是 $X, Y, M$ ,对于现有的数据来说，他们服从的分布肯定是一个 $M$ 依赖于 $X, Y$ 的分布，设为 $P$ 。我们期望的是 $M$ 独立于 $X, Y$ 的分布 $Q$ ，因此引入一个额外的二分变量 $S$ ， $S = 1$ 的时候对应的样本是我们能看见的，其余的是我们没有采样到的，这样输入数据就有四类了， $X, Y, M, S$ 。
$P(\cdot)=Q(\cdot|S=1)$
然后我们可以把期望的约束放在我们引入的分布 $Q$ 上：比如 $M 独$ 立于 $X, Y$ ，即：
$Q (M ∣ X, Y) = Q (M)$
当两边都是向量的时候(M, X×Y)很难算，因此作者只让 $M$ 独立于 $Y$ :
$Q (M ∣ Y) = Q (M)$
同时又因为 $S$ 肯定是依赖于某些变量的（否则引入这个变量没意义， $P$ 还是等于 $Q$ ），作者假设 $S$ 依赖于 $Y, M$ ：
$Q (S = 1 ∣ X, Y, M) = Q (S = 1 ∣ Y, M)$
同时为了简化问题，还引入了一个假设：P,Q的边缘分布是一样的：
$P(M)=Q(M),\;\;P(Y)=Q(Y)$
这个假设意味着：
$Q (M) = P (M) = Q (M ∣ S = 1)$
意味着对Q来说，M,S独立，M,Y独立。（感觉这些假设应该是为了推导凑的…）
这样就就可以得到instance weight: $w = P (y) / P (y ∣ m)$
得到：
$\mathbb{E}_{x,y\sim P}[w\mathcal{L}(f(x,m),y)]=\mathbb{E}_{x,y,m\sim Q}[\mathcal{L}f(x,m),y]$
也就是说我们对现有的样本加一个weight $w$ ，这样等价于我们用服从 $Q$ 的样本 $(x, y, m)$ 来训练模型，因为分布 $Q$ 中， $M$ 独立于 $Y$ ，因此我们获得的模型是相对无偏的。一定程度缓解了combinatorial shortcuts.
当然这个方法也有一些缺点，比如不是所有的样本都符合作者给定的这些假设，同时 $M, X$ 之间的依赖关系也没有彻底去除。