Transformers in Vision: A Survey

本文是一篇24页的视觉Transformer综合调查,涵盖了从图像分类、目标检测、分割到视频理解、3D点云分析等多个领域,引用了170篇相关文献。Transformer模型凭借其自注意力机制在计算机视觉任务中展现出卓越性能,预训练与微调策略进一步提升其表现。文章详细介绍了各类Transformer变体及其在不同任务中的应用。
摘要由CSDN通过智能技术生成

CVer上周第一时间推送了:华为&北大等联合最新提出的视觉Transformer综述,这周又来了一篇视觉Transformer新综述!内容和参考文献相对更加丰富一点。

注:文末附综述PDF下载和Transformer交流群

24页综述,共计170篇参考文献!本综述将视觉Transformer模型根据不同的任务进行分类和介绍(如分类、检测、行为识别、分割、GAN、low-level视觉、3D点云等)。

Transformers in Vision: A Survey

作者单位:人工智能大学(MBZUAI), IIAI等

论文下载链接:https://arxiv.org/abs/2101.01169

Transformer 模型在自然语言任务方面的惊人结果吸引了视觉界研究其在计算机视觉问题中的应用。

由下图可见BERT、自注意力和Transformer相关论文数量近年来增长的情况

这项调研旨在提供计算机视觉学科中的transformer 模型的全面概述,并且假设该领域的背景知识很少甚至没有。

我们从介绍transformer 模型成功背后的基本概念开始,即自监督(Self-supervision
)和自注意力(Self-Attention )

Transformer 体系结构利用自注意力机制在输入域中对远程依赖项进行编码,从而使其具有较高的表达力。

由于他们假定对问题的结构缺乏先验知识,因此将使用前置任务的自监督应用于大规模(未标记)数据集上的预训练transformer 模型。然后,在下游任务上对学习到的表示进行微调,由于编码特征的泛化和表现力,通常可导致出色的性能。

视觉中的Transformer和自注意力

本综述涵盖了transformer 在视觉领域的广泛应用,包括流行的识别任务(例如图像分类,目标检测,动作识别和分割),生成模型,多模式任务(例如视觉问题解答和视觉推理),视频处理(例如活动识别,视频预测),low-level视觉(例如图像超分辨率和彩色化)和3D分析(例如点云分类和分割)。

一、用于图像识别的Transformer

  • 8
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值