Transformer在CV领域的优缺点_transformer的优点-CSDN博客

本文链接：https://blog.csdn.net/PETERPARKERRR/article/details/125635190

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

Visual Transformer 具有如下较好的特性：
局限性

Visual Transformer 具有如下较好的特性：

1、全局特性：CNN算子存在局部感受野较局限的问题，为了获得全局信息，需要多层堆叠，但是随着层数增大信息量会衰竭，因此提取的特征注意力集中在某些区域。Transformer存在自注意力机制，能有效获得全局信息，并且多头可以将其映射到多个空间，使模型表达能力变强。
2、Transformer具有很好的模态融合能力，对于图像，可把对图像通过 Conv 或直接对像素操作得到的初始 Embeddings 馈入 Transformer 中，而无需始终保持 H×W×C 的 Feature Map 结构。类似于 Position Embedding，只要能编码的信息，都可以非常轻松地利用进来。
3、Multiple Tasks 能力。不少工作证明一个 Transformer 可执行很多任务，因为其 Attention 机制可让网络对不同的 Task 进行不同的学习，一个简单的用法便是加一个 Task ID 的 Embedding。

局限性

1、计算效率。毫无疑问，目前 Transformer 还无法替代 CNN 的一个重要原因就是计算效率，目前 CV 领域还是直接套用NLP 中的 Transformer 结构，而较少地对 CV 数据做专门的设计，然而图像/视频的信息量远大于文本，所以目前 Transformer 的计算开销依然很大。当然 ViT 之后，已经陆续有工作开始设计更加适配 CV 的 Transformer 结构，估计这一个领域也是目前非常火热的领域，未来应该会有不少工作出来。
2、应用适配。除基础网络结构的改进，需要推动 Transformer 在。 CV 上的发展，还需要很多 CV 下游任务上的成功。这个看起来有点像把 Transformer 替换掉 CNN，在各个 CV 任务上重新做一篇以前的事。不过实际上不是替换掉 CNN Backbone 那么简单，首先 Transformer 的训练有自己的特性二来要利用 Transformer 的特性对于 CV 任务进行专门的改进，让大家看到 Transformer 比 CNN 做的更好的地方。
3、CNN 已在很多 CV 任务取得了成功，但是依然有一些任务没有完全克服，比如 Video 的一些任务，识别率还无法达到人脸、识别、检测这种精度。