【前沿热点视觉算法】-视觉识别的统一卷积和自我注意

本文链接：https://blog.csdn.net/qq_43552933/article/details/136303837

本文介绍了一种名为UniFormer的新算法，结合了卷积神经网络和视觉Transformer的优势，通过动态位置嵌入和多头关系聚合器解决冗余和依赖问题。UniFormer在ImageNet-1K等任务上表现出色，并有望简化视频创作。尽管Sora还在测试阶段，但它展示了计算机视觉领域的前沿进展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

计算机视觉算法分享。问题或建议，请文章私信或者文章末尾扫码加微信留言。

1 论文题目

视觉识别的统一卷积和自我注意

2 论文摘要

由于大量的局部冗余和复杂的全局依赖性，从图像和视频中学习区别表示是一项具有挑战性的任务。卷积神经网络（CNNs）和视觉变压器（ViTs）在过去的几年中一直是两个占主导地位的框架。虽然cnn可以通过在一个小邻域内的卷积有效地减少局部冗余，但有限的接受域使得很难捕获全局依赖性。另外，ViTs可以通过自我注意有效地捕获长期依赖，而所有令牌之间的盲相似性比较会导致高冗余。为了解决这些问题，我们提出了一种新的统一变压器（UniFrorme），它可以无缝地集成卷积和自我注意的优点。与典型的变压器块不同，我们的统一块中的关系聚合器分别在浅层和深层中具有局部和全局标记亲和力，允许解决冗余和依赖性，从而实现有效的表示学习。最后，我们灵活地将uni前体块叠加成一个新的强大的主干，并将其用于从图像到视频领域，从分类到密集预测的各种视觉任务。在没有任何额外的训练数据的情况下，我们的单位前者在ImageNet-1K分类任务上达到了86.3的前1位精度。通过只有ImageNet-1K的预训练，它就可以简单地在广泛的下游任务中实现最先进的性能。它获得82.9/84.8前1动力学精度-400/600,60.9/71.2前1精度——V1/V2视频分类任务，53.8盒美联社和46.4面具美联社COCO目标检测任务，50.8mIoUADE20K语义分割任务，和77.4APCOCO姿态估计任务。

3 论文创新点

动态位置嵌入（DPE）
多头关系聚合器（MHRA）
前馈网络（FFN）

4 论文架构

在这里插入图片描述

5 不足之处

6 未来展望

提出的一种新的高效视觉识别的统一方法，它可以有效地统一卷积和自关注在一个简洁的变压器格式，以克服冗余和依赖性。
在浅层采用局部MHRA，大大减少计算负担，在深层采用全局MHRA，学习全局令牌关系。

7 论文地址

chrome-extension://mhnlakgilnojmhinhkckjpncpbhabphi/pages/pdf/web/viewer.html?file=https%3A%2F%2Farxiv.dosf.top%2Fpdf%2F2201.09450

8 论文代码

https://github.com/Sense-X/UniFormer

计算机视觉最新进展-Sora

尽管Sora目前尚未向公众开放，但据悉，它可能首先向OpenAI的付费用户提供，如ChatGPT Plus用户（升级 ChatGPT Plus 的教程）。Sora的推出将极大地简化视频创作流程，并提供前所未有的高效性和便利性。如果您有兴趣了解如何使用Sora，可关注官方网站获取最新信息。
具体Sora介绍和ChatGPT4 升级教程
如有其他疑问可以加以下微信二维码联系
更多计算机视觉最新最先进算法请扫描关注以下公众号