Transformer在CV领域的优缺点

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


参考:添加链接描述

Visual Transformer 具有如下较好的特性:


1、全局特性:CNN算子存在局部感受野较局限的问题,为了获得全局信息,需要多层堆叠,但是随着层数增大信息量会衰竭,因此提取的特征注意力集中在某些区域。Transformer存在自注意力机制,能有效获得全局信息,并且多头可以将其映射到多个空间,使模型表达能力变强。
2、Transformer具有很好的模态融合能力,对于图像,可把对图像通过 Conv 或直接对像素操作得到的初始 Embeddings 馈入 Transformer 中,而 无需始终保持 H×W×C 的 Feature Map 结构。类似于 Position Embedding,只要能编码的信息,都可以非常轻松地利用进来。
3、Multiple Tasks 能力。不少工作证明一个 Transformer 可执行很多任务,因为其 Attention 机制可让网络对不同的 Task 进行不同的学习,一个简单的用法便是加一个 Task ID 的 Embedding。

局限性

1、计算效率。毫无疑问,目前 Transformer 还无法替代 CNN 的一个重要原因就是计算效率,目前 CV 领域还是直接套用NLP 中的 Transformer 结构,而较少地对 CV 数据做专门的设计,然而图像/视频的信息量远大于文本,所以目前 Transformer 的计算开销依然很大。当然 ViT 之后,已经陆续有工作开始设计更加适配 CV 的 Transformer 结构,估计这一个领域也是目前非常火热的领域,未来应该会有不少工作出来。
2、应用适配。除基础网络结构的改进,需要推动 Transformer 在。 CV 上的发展,还需要很多 CV 下游任务上的成功。这个看起来有点像把 Transformer 替换掉 CNN,在各个 CV 任务上重新做一篇以前的事。不过实际上不是替换掉 CNN Backbone 那么简单,首先 Transformer 的训练有自己的特性二来要利用 Transformer 的特性对于 CV 任务进行专门的改进,让大家看到 Transformer 比 CNN 做的更好的地方。
3、CNN 已在很多 CV 任务取得了成功,但是依然有一些任务没有完全克服,比如 Video 的一些任务,识别率还无法达到人脸、识别、检测这种精度。

  • 8
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值