下一代视觉Transformer:CNN+Transformer=Better

2024深度学习发论文&模型涨点之——CNN+Transformer

CNN擅长提取图像的局部特征,而Transformer则以其自注意力机制在捕捉全局信息和长距离依赖方面表现出色。近年来,研究者们开始探索将这两种模型结合起来,以期在视觉任务中取得更好的性能。

在实际应用中,CNN+Transformer的混合模型已经在图像分类、目标检测、语义分割等多个计算机视觉任务中取得了显著成果。例如,在图像分类任务中,混合模型能够通过结合CNN的局部特征提取能力和Transformer的全局信息建模能力,在ImageNet等基准数据集上取得了更高的分类准确率。

小编整理了一些CNN+Transformer论文合集,需要的同学在公众号【AI创新工场】领取。

论文精选

论文1:

Pairwise CNN-Transformer Features for Human–Object Interaction Detection

用于人体-物体交互检测的成对CNN-Transformer特征

方法

  • 成对CNN-Transformer(PCT)模型:提出了一种新的两阶段方法,该方法结合了对象检测器和丰富的上下文信息。

  • 特征融合:通过融合CNN和Transformer特征来增强成对表示,提高了特征表达能力。

  • 全局特征利用:使用Transformer的全局特征为模型提供有价值的上下文线索。

  • 交互头设计:引入全局特征到交互头中,通过交叉注意力机

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值