Transformers in Vision: A Survey

最新推荐文章于 2024-06-19 06:00:00 发布

Amusi（CVer）

最新推荐文章于 2024-06-19 06:00:00 发布

阅读量4.2k

点赞数 8

分类专栏： Transformer 综述计算机视觉论文速递文章标签：人工智能计算机视觉机器学习深度学习自动驾驶

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/amusi1994/article/details/112288273

版权

本文是一篇24页的视觉Transformer综合调查，涵盖了从图像分类、目标检测、分割到视频理解、3D点云分析等多个领域，引用了170篇相关文献。Transformer模型凭借其自注意力机制在计算机视觉任务中展现出卓越性能，预训练与微调策略进一步提升其表现。文章详细介绍了各类Transformer变体及其在不同任务中的应用。

摘要由CSDN通过智能技术生成

CVer上周第一时间推送了：华为&北大等联合最新提出的视觉Transformer综述，这周又来了一篇视觉Transformer新综述！内容和参考文献相对更加丰富一点。

注：文末附综述PDF下载和Transformer交流群

24页综述，共计170篇参考文献！本综述将视觉Transformer模型根据不同的任务进行分类和介绍（如分类、检测、行为识别、分割、GAN、low-level视觉、3D点云等）。

Transformers in Vision: A Survey

作者单位：人工智能大学(MBZUAI), IIAI等

论文下载链接：https://arxiv.org/abs/2101.01169

Transformer 模型在自然语言任务方面的惊人结果吸引了视觉界研究其在计算机视觉问题中的应用。

由下图可见BERT、自注意力和Transformer相关论文数量近年来增长的情况

这项调研旨在提供计算机视觉学科中的transformer 模型的全面概述，并且假设该领域的背景知识很少甚至没有。

我们从介绍transformer 模型成功背后的基本概念开始，即自监督（Self-supervision
）和自注意力（Self-Attention ）。

Transformer 体系结构利用自注意力机制在输入域中对远程依赖项进行编码，从而使其具有较高的表达力。

由于他们假定对问题的结构缺乏先验知识，因此将使用前置任务的自监督应用于大规模（未标记）数据集上的预训练transformer 模型。然后，在下游任务上对学习到的表示进行微调，由于编码特征的泛化和表现力，通常可导致出色的性能。

视觉中的Transformer和自注意力

本综述涵盖了transformer 在视觉领域的广泛应用，包括流行的识别任务（例如图像分类，目标检测，动作识别和分割），生成模型，多模式任务（例如视觉问题解答和视觉推理），视频处理（例如活动识别，视频预测），low-level视觉（例如图像超分辨率和彩色化）和3D分析（例如点云分类和分割）。

一、用于图像识别的Transformer

最低0.47元/天解锁文章

Amusi（CVer）

关注

8
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
Transformers in Vision: A Survey

CVer上周第一时间推送了：华为&北大等联合最新提出的视觉Transformer综述，这周又来了一篇视觉Transformer新综述！内容和参考文献相对更加丰富一点。注：文末附综述PDF下载和Transformer交流群24页综述，共计170篇参考文献！本综述将视觉Transformer模型根据不同的任务进行分类和介绍（如分类、检测、行为识别、分割、GAN、low-level视觉、3D点云等）。Transformers in Vision: A Survey作者单位：人工智能大学
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。