动机
-
视觉transformer(ViTs)在图像分类中得到了成功的应用。
-
ViTs层次加深不利于其性能。
与卷积神经网络不同的是,卷积神经网络可以通过增加卷积层来提高其性能,而在ViTs,随着transformer块数量的增加,模型性能并没有相应提高。例如带有32个transformer块的ViT模型比带有24个transformer块的ViT模型更糟糕。这意味着直接堆叠更多的transformer块,在增强ViT模型时效率不高。而当层次越深时,ViTs的性能则会迅速饱和。
-
在ViTs的深层,自我注意机制无法学习到有效的表征学习概念,阻碍了模型获得预期的性能增益。
层次加深出现的困难是由注意力崩溃问题引起的:随着transformer的层次加深,注意力映射逐渐变得相似,甚至在某些层之后变得大同小异。换句话说,在深度ViT模型的顶层,特征图往往是相同的。(为了衡量注意力映射图在层上的演化,通过余弦相似矩阵计算了不同层次的注意力映射图之间的跨层相似度。)
方法
不同transformer块之间的注意力映射图具有较高的相似性,尤其是深层的注意力映射图。然而,本文发现来自同一transform