CVPR 2021 DeepViT: Towards Deeper Vision Transformer

最新推荐文章于 2024-07-09 13:31:23 发布

smile909

最新推荐文章于 2024-07-09 13:31:23 发布

阅读量1.3k

点赞数 2

分类专栏： CVPR 2021

本文链接：https://blog.csdn.net/smile909/article/details/115338606

版权

动机

视觉transformer（ViTs）在图像分类中得到了成功的应用。
ViTs层次加深不利于其性能。

与卷积神经网络不同的是，卷积神经网络可以通过增加卷积层来提高其性能，而在ViTs，随着transformer块数量的增加，模型性能并没有相应提高。例如带有32个transformer块的ViT模型比带有24个transformer块的ViT模型更糟糕。这意味着直接堆叠更多的transformer块，在增强ViT模型时效率不高。而当层次越深时，ViTs的性能则会迅速饱和。
在ViTs的深层，自我注意机制无法学习到有效的表征学习概念，阻碍了模型获得预期的性能增益。

层次加深出现的困难是由注意力崩溃问题引起的：随着transformer的层次加深，注意力映射逐渐变得相似，甚至在某些层之后变得大同小异。换句话说，在深度ViT模型的顶层，特征图往往是相同的。（为了衡量注意力映射图在层上的演化，通过余弦相似矩阵计算了不同层次的注意力映射图之间的跨层相似度。）

方法

在这里插入图片描述

不同transformer块之间的注意力映射图具有较高的相似性，尤其是深层的注意力映射图。然而，本文发现来自同一transformer块的不同头的注意力映射图的相似性相当小，很明显，来自同一自我注意力层的不同头部关注输入令牌的不同方面。基于这一观察，为了解决注意力崩溃的问题，并有效地将视觉转换扩展到更深

最低0.47元/天解锁文章

smile909

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2021 DeepViT: Towards Deeper Vision Transformer

动机视觉transformer（ViTs）在图像分类中得到了成功的应用。ViTs层次加深不利于其性能。与卷积神经网络不同的是，卷积神经网络可以通过增加卷积层来提高其性能，而在ViTs，随着transformer块数量的增加，模型性能并没有相应提高。例如带有32个transformer块的ViT模型比带有24个transformer块的ViT模型更糟糕。这意味着直接堆叠更多的transformer块，在增强ViT模型时效率不高。而当层次越深时，ViTs的性能则会迅速饱和。在ViTs的深层，
复制链接

扫一扫