CNN结合Transformer
【CNN+Transformer】这个研究方向通过结合卷积神经网络(CNN)的局部特征提取能力和Transformer的全局上下文建模优势,旨在提升模型对数据的理解力。这一方向在图像处理、自然语言处理等多个领域展现出强大的应用潜力,特别是在需要同时考虑细节和整体信息的任务中。通过融合两种网络结构,研究者能够设计出更为高效和准确的模型,以解决传统单一网络结构难以处理的复杂问题。此研究方向的发展不仅推动了深度学习技术的进步,也为实际应用提供了更丰富的解决方案。近年来,无数的研究者们对CNN结合Transformer这个领域的进行了大量研究,并产出了大量的学术成果。
1、SCTNet: Single-Branch CNN with Transformer Semantic Information for Real-Time Segmentation
方法
- SCTNet架构:提出了一种单分支卷积神经网络(CNN),该网络在训练时利用transformer作为语义分支来提取丰富的长距离上下文信息,而在推理时仅部署单分支CNN。
- CFBlock:设计了一种称为CFBlock(ConvFormer Block)的transformer-like CNN块,使用仅卷积操作模拟transformer块的结构,以学习transformer分支的语义信息。
- Semantic Information Alignment Module (SIAM):提出了一种语义信息对齐模块,包括Backbone Feature Alignment (BFA)和Shared Decoder Head Alignment (SDHA),用于在训练过程中对齐CNN和transformer的特征表示。
- 推理效率:在推理阶段,只部署单分支CNN,避免了双分支网络带来的额外计算开销,提高了推理速度。
- 损失函数:采用CWD Loss(Channel-Wise Distillation Loss)作为对齐损失,专注于语义信息的对齐而非空间信息。
创新点
- 单分支CNN与transformer的结合:SCTNet创新地将单分支CNN与训练时使用的transformer语义分支结合起来,既保持了推理时的高效率,又能够利用transformer捕获丰富的语义信息。
- CFBlock设计:CFBlock的设计允许CNN通过仅使用卷积操作来捕获与transformer相似的长距离上下文,这在实时语义分割领域是一个新颖的尝试。
- SIAM的引入:通过SIAM,SCTNet能够在训练时有效地对齐CNN和transformer的特征,确保了在推理时单分支CNN能够编码丰富的语义信息和空间细节。
- 推理速度与准确性的平衡:SCTNet在保持高推理速度的同时,通过创新的设计实现了与现有最先进方法相比更高的准确性,为实时语义分割领域提供了新的速度-准确性权衡。
确性权衡。
2、AdaMCT: Adaptive Mixture of CNN-Transformer for Sequential Recommendation
方法:
- AdaMCT架构:提出了一种新颖的混合模型,结合了卷积神经网络(CNN)和Transformer,用于序列推荐(SR)。
- 局部全局依赖机制:通过结合局部卷积层和全局自注意力层,联合建模用户的长期和短期偏好。
- 自适应混合单元:设计了一种层级感知的自适应混合单元(AdaMCT),在不同层中解耦融合过程,提升表达能力,并自适应地聚合长期和短期偏好。
- Squeeze-Excitation Attention (SEAtt):提出一种新型的注意力机制,用以替代softmax操作,允许同时考虑多个相关项目,增强模型表达能力。
- 嵌入模块:包含项目嵌入层和位置嵌入层,将项目ID转换为密集的潜在向量表示。
- 多堆叠的AdaMCT块:每个块包含全局注意力模块(Transformer)、局部卷积模块(CNN)和自适应混合单元。
- 输出层:使用交叉熵损失函数计算匹配概率,并通过两层前馈网络和softmax函数生成候选项目的全排名概率分布。
创新点
- 局部性和全局性的有效结合:AdaMCT通过将局部性偏好(通过CNN捕捉)和全局性偏好(通过Transformer捕捉)结合起来,更全面地建模用户的动态偏好。
- 自适应混合单元:提出了一种新颖的自适应机制,可以根据用户的个性化需求调整局部和全局依赖模块的混合重要性。
- Squeeze-Excitation Attention:提出了一种新的注意力机制,允许模型同时关注多个高度相关的项目,而不是像传统softmax那样只关注单一项目。
- 层级感知的个性化建模:AdaMCT的自适应混合单元是模块和层级感知的,能够为每个用户和每一层提供个性化的偏好表示。
- 跨多个数据集的有效性验证:在三个广泛使用的基准数据集上进行了广泛的实验,证明了所提出方法的有效性和效率。
- 模型参数和计算效率的优化:AdaMCT在保持性能的同时,具有较少的参数和更高的计算效率,这使得模型更适合实际部署,尤其是在资源受限的设备上。
3、Enriched CNN-Transformer Feature Aggregation Networks for Super-Resolution
方法
- 混合网络架构:提出了一种结合卷积神经网络(CNN)和Transformer的混合超分辨率(SR)网络,以聚合丰富的特征,包括CNN的局部特征和Transformer捕获的长距离多尺度依赖性。
- CNN分支:利用CNN分支来有效利用图像内部重复的局部信息,通过残差信道注意力模块(RCAB)提取特征。
- Transformer分支:基于标准的多头自注意力(MHSA)构建Transformer分支,并引入了跨尺度令牌注意力模块(CSTA),以利用不同尺度之间的信息。
- 特征融合:通过融合块(Fusion Block)在CNN和Transformer分支之间双向连接和聚合中间特征,以补充彼此的信息。
- 尾部模块:使用PixelShuffle操作和卷积层对聚合的特征进行上采样和重建,生成最终的超分辨率图像。
- 训练策略:使用ImageNet数据集进行训练,通过亚像素卷积神经网络进行特征提取,并采用L1损失函数进行网络优化。
创新点
- 跨尺度令牌注意力(CSTA):提出了一种新颖的注意力机制,允许Transformer分支在不同尺度的令牌之间有效利用信息,通过通道分割和重排来生成多尺度令牌。
- CNN与Transformer的协同工作:设计了一种有效的混合架构,CNN分支和Transformer分支在特征提取过程中相互补充,通过中间特征的融合来增强特征表示。
- 特征融合策略:通过融合块实现了CNN和Transformer特征的双向信息交流,这种融合策略提高了特征的互补性,有助于提高最终的超分辨率性能。
- 无需位置嵌入:研究发现在SR任务中,位置信息的重要性降低,因此提出的网络没有使用位置嵌入,这减少了计算复杂性。
- 多尺度特征提取:通过CSTA模块有效地提取和利用了多尺度特征,这有助于恢复图像中的高频细节和纹理信息。