下一代视觉Transformer：CNN+Transformer=Better

Ai多利

于 2024-11-06 16:07:46 发布

阅读量1.3k

点赞数 38

文章标签： transformer cnn 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_88556812/article/details/143572913

版权

2024深度学习发论文&模型涨点之——CNN+Transformer

CNN擅长提取图像的局部特征，而Transformer则以其自注意力机制在捕捉全局信息和长距离依赖方面表现出色。近年来，研究者们开始探索将这两种模型结合起来，以期在视觉任务中取得更好的性能。

在实际应用中，CNN+Transformer的混合模型已经在图像分类、目标检测、语义分割等多个计算机视觉任务中取得了显著成果。例如，在图像分类任务中，混合模型能够通过结合CNN的局部特征提取能力和Transformer的全局信息建模能力，在ImageNet等基准数据集上取得了更高的分类准确率。

小编整理了一些CNN+Transformer论文合集，需要的同学在公众号【AI创新工场】领取。

论文精选

论文1：

Pairwise CNN-Transformer Features for Human–Object Interaction Detection

用于人体-物体交互检测的成对CNN-Transformer特征

方法

成对CNN-Transformer（PCT）模型：提出了一种新的两阶段方法，该方法结合了对象检测器和丰富的上下文信息。
特征融合：通过融合CNN和Transformer特征来增强成对表示，提高了特征表达能力。
全局特征利用：使用Transformer的全局特征为模型提供有价值的上下文线索。
交互头设计：引入全局特征到交互头中，通过交叉注意力机

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。