【论文笔记】Why Attentions May Not Be Interpretable?

Why Attentions May Not Be Interpretable?

arxiv地址

工作背景

关于attention 机制的可解释性有很强的争议,所以本文作者试图找到影响attention可解释性的根本原因。作者提出根本影响因素之一是 : combinatorial shortcuts(attention除了要高亮重要的part, e.g. tokens, pixels,还会携带一些额外的信息,这些信息可以被下游模型用来做预测)

工作思路:
问题1
在现有的模型中,Attention的作用真的只是找到重要的tokens(pixels)吗?
解决思路
首先思考模型过程:attention layer需要对input, X X X找到一个权重分布 M M M,让后面的modules根据 X , M X,M X,M来预测 Y Y Y,那么下游模型的预测任务可以表示为 E ( Y ∣ X , M ) \mathbb{E}(Y|X, M) E(YX,M)。如果attention的作用只是highlight important part,那么需要下游任务 E ( Y ∣ X , M ) \mathbb{E}(Y|X, M) E(YX,M)能够根据 X , M X,M X,M正确的计算出 Y Y Y,也就是说这是一个无偏估计(根据X,M估计的Y就是真实的X,M对应的Y)。因为只有下游任务的模型是无偏估计,我们模型的训练目标才是:让attention尽可能地找到正确的M,即从X中找到重要的parts,从而最小化损失: min ⁡ m L ( y ,   E ( y ∣ x , m ) ) \min\limits_{m}\mathcal{L}(y,\ \mathbb{E}(y|x,m)) mminL(y, E(yx,m))
问题2
那么下游任务是无偏估计吗?如何分析?
解决思路
从输入数据着手:如果我们能够获得充足的数据(所有的 X , M X,M X,M的combination)那么得到的 E ( Y ∣ X , M ) \mathbb{E}(Y|X, M) E(YX,M)是无偏的。但是实际上这是不可能的。退一步讲,从casual effect estimation的角度分析。如果把 M M M的不同采样当作是不同的treatment, X X X M M M的随机combination也可以被证明是提供无偏的期望估计。不管怎么说,需要两类输入 X , M X,M X,M他们之间是独立的。但是attention机制使得 M M M是依赖于 X X X的, M M M是根据 X X X来计算得到的( M = A t t n ( Q , K , V ) M=Attn(Q,K,V) M=Attn(Q,K,V))。因此下游任务的输入是 X , M X,M X,M的highly selective combination. M是highly related to X(and Y as well)的。
所以,我们学习到的 E ( Y ∣ X , M ) \mathbb{E}(Y|X, M) E(YX,M)是有偏的。

从整体的训练任务角度来看,因为下游任务是有偏的,attention会找一些有偏的特征来适应有偏的下游任务,因此fail to highlight the essential features。结果就是attention和下游任务共同作用,然后找到了一条意料之外的方法来拟合数据,比如,正样本高亮第一个词,负样本高亮最后一个词。。。作者称这种现象为combinatorial shortcuts。

问题3
找到了造成attention不可解释的原因,combinatorial shortcuts,如何消除这个影响,使得结果可解释呢?
作者从两个角度提出了两种方法:

  1. 找到所有的X,M的combination,先训练下游模型,得到无偏的 E ( Y ∣ X , M ) \mathbb{E}(Y|X, M) E(YX,M)。然后固定无偏的下游模型,训练attention layer,这样在无偏下游模型的激励下,attention会尽可能找到重要的feature来预测正确的y,最小化损失。
    优点:理论完善,理论上可以完全消除combinatorial shortcuts。
    缺点:in fact 很难找到全部的combination。

  2. 因为实际上所有的combination很难找到,而且大部分的combination对于训练的作用很小,因此另一个角度是如何对现有的数据做一些处理使得它能够recover 我们需要的数据分布.现有的能采样到的三类数据空间是 X , Y , M X,Y,M X,Y,M,对于现有的数据来说,他们服从的分布肯定是一个 M M M依赖于 X , Y X,Y X,Y的分布,设为 P P P。我们期望的是 M M M独立于 X , Y X,Y X,Y的分布 Q Q Q,因此引入一个额外的二分变量 S S S S = 1 S=1 S=1的时候对应的样本是我们能看见的,其余的是我们没有采样到的,这样输入数据就有四类了, X , Y , M , S X,Y,M,S X,Y,M,S
    P ( ⋅ ) = Q ( ⋅ ∣ S = 1 ) P(\cdot)=Q(\cdot|S=1) P()=Q(S=1)
    然后我们可以把期望的约束放在我们引入的分布 Q Q Q上:比如 M 独 M独 M立于 X , Y X,Y X,Y,即:
    Q ( M ∣ X , Y ) = Q ( M ) Q(M|X,Y)=Q(M) Q(MX,Y)=Q(M)
    当两边都是向量的时候(M, X×Y)很难算,因此作者只让 M M M独立于 Y Y Y:
    Q ( M ∣ Y ) = Q ( M ) Q(M|Y)=Q(M) Q(MY)=Q(M)
    同时又因为 S S S肯定是依赖于某些变量的(否则引入这个变量没意义, P P P还是等于 Q Q Q), 作者假设 S S S依赖于 Y , M Y,M Y,M
    Q ( S = 1 ∣ X , Y , M ) = Q ( S = 1 ∣ Y , M ) Q(S=1|X,Y,M)=Q(S=1|Y,M) Q(S=1X,Y,M)=Q(S=1Y,M)
    同时为了简化问题,还引入了一个假设:P,Q的边缘分布是一样的:
    P ( M ) = Q ( M ) ,      P ( Y ) = Q ( Y ) P(M)=Q(M),\;\;P(Y)=Q(Y) P(M)=Q(M),P(Y)=Q(Y)
    这个假设意味着:
    Q ( M ) = P ( M ) = Q ( M ∣ S = 1 ) Q(M)=P(M)=Q(M|S=1) Q(M)=P(M)=Q(MS=1)
    意味着对Q来说,M,S独立,M,Y独立。(感觉这些假设应该是为了推导凑的…)
    这样就就可以得到instance weight: w = P ( y ) / P ( y ∣ m ) w=P(y)/P(y|m) w=P(y)/P(ym)
    得到:
    E x , y ∼ P [ w L ( f ( x , m ) , y ) ] = E x , y , m ∼ Q [ L f ( x , m ) , y ] \mathbb{E}_{x,y\sim P}[w\mathcal{L}(f(x,m),y)]=\mathbb{E}_{x,y,m\sim Q}[\mathcal{L}f(x,m),y] Ex,yP[wL(f(x,m),y)]=Ex,y,mQ[Lf(x,m),y]
    也就是说我们对现有的样本加一个weight w w w,这样等价于我们用服从 Q Q Q的样本 ( x , y , m ) (x,y,m) (x,y,m)来训练模型,因为分布 Q Q Q中, M M M独立于 Y Y Y,因此我们获得的模型是相对无偏的。一定程度缓解了combinatorial shortcuts.
    当然这个方法也有一些缺点,比如不是所有的样本都符合作者给定的这些假设,同时 M , X M,X M,X之间的依赖关系也没有彻底去除。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值