2024深度学习发论文&模型涨点之——CNN+Transformer
CNN擅长提取图像的局部特征,而Transformer则以其自注意力机制在捕捉全局信息和长距离依赖方面表现出色。近年来,研究者们开始探索将这两种模型结合起来,以期在视觉任务中取得更好的性能。
在实际应用中,CNN+Transformer的混合模型已经在图像分类、目标检测、语义分割等多个计算机视觉任务中取得了显著成果。例如,在图像分类任务中,混合模型能够通过结合CNN的局部特征提取能力和Transformer的全局信息建模能力,在ImageNet等基准数据集上取得了更高的分类准确率。
小编整理了一些CNN+Transformer论文合集,需要的同学在公众号【AI创新工场】领取。
论文精选
论文1:
Pairwise CNN-Transformer Features for Human–Object Interaction Detection
用于人体-物体交互检测的成对CNN-Transformer特征
方法
-
成对CNN-Transformer(PCT)模型:提出了一种新的两阶段方法,该方法结合了对象检测器和丰富的上下文信息。
-
特征融合:通过融合CNN和Transformer特征来增强成对表示,提高了特征表达能力。
-
全局特征利用:使用Transformer的全局特征为模型提供有价值的上下文线索。
-
交互头设计:引入全局特征到交互头中,通过交叉注意力机