01 简介
在计算机视觉模型中,Self-Attention已经成为一种普遍模块。尽管它取得了显著的成就,但对Self-Attention的理解仍然有限。它的优点之一是克服了空间距离对依赖性建模的限制。
与LSTM和门控RNN相比,Self-Attention源于自然语言处理,在不考虑序列中单词之间距离的情况下对远距离依赖关系进行建模。
在应用于视觉模型时,Self-Attention将像素或Patch之间的全局信息聚集起来。同样,与传统的卷积相比,通过Self-Attention提取的特征不再受局部邻域的约束。
而LTSA作者认为,Self-Attention中的全局聚合也会带来问题,因为聚合的特征不能清楚地区分local cues和contextual cues。
作者从条件随机场(CRF)的角度来研究这个问题,并将其分解为local term和context term。而unary term(Local)和binary term(Context)则基于相同的query、key和value构建块,并使用相同的投影矩阵计算。
假设,使用相同的构建模块的local term和context term将导致问题,这与Dong等人指出的Self-Attention映射的弱点有关。
他们从理论上证明了连续Self-Attention的输出会以双指数形式收敛到一个秩1矩阵,并从经验上验证了这种退化。他们还声称skip connection可以部分解决排序崩溃问题。
在作者的CRF分析中,skip connection创建了最简单的local term,这相当于标识映射。虽然skip connection缓解了这个问题,但作者认为仍然需要设计一个具有更强表示能力的Local term。