【AAAI 2024】即插即用，Conv-Former注意力模块，用卷积实现Transformer效果！

最新推荐文章于 2025-03-13 20:10:55 发布

小马不会过河

最新推荐文章于 2025-03-13 20:10:55 发布

阅读量2.2k

点赞数 21

文章标签： transformer 深度学习人工智能爬虫 langchain 分类数据挖掘

本文链接：https://blog.csdn.net/m0_59163425/article/details/144444443

版权

一、论文信息

论文题目：SCTNet: Single-Branch CNN with Transformer Semantic Information for Real-Time Segmentation

中文题目: 单分支CNN结合Transformer语义信息的实时分割网络

论文链接：https://arxiv.org/pdf/2312.17071

官方github：https://github.com/xzz777/SCTNet

二、论文概要

图5：在Cityscapes验证集上的可视化结果。与DDRNet-23（Pan等人，2022年）和RTFormer-B（Wang等人，2022年）相比，SCTNet-B生成的掩码具有更精细的细节，如浅蓝色框中突出显示的那样，以及更准确的大面积预测，如黄色框中突出显示的那样。

研究背景:

实时语义分割方法：近期的实时语义分割方法通常采用额外的语义分支来追求丰富的长距离上下文信息，但额外的分支会带来不希望的计算开销并减慢推理速度。

本文贡献:

SCTNet的提出：一种新颖的单分支实时分割网络，称为SCTNet。通过学习利用从transformer到CNN的语义信息对齐来提取丰富的语义信息，SCTNet在保持轻量级单分支CNN的快速推理速度的同时，享受transformer的高准确性。
CFBlock：为了缓解CNN特征和Transformer特征之间的语义差距，设计了CFBlock（ConvFormer块），它仅使用卷积操作就能像Transformer块一样捕获长距离上下文。此外，提出了SIAM（语义信息对齐模块），以更有效的方式对齐特征。

三、方法

图3：SCTNet的架构。CFBlock（Conv-Transformer，详见图4）通过SIAM（语义信息对齐模块）利用训练仅限的Transformer分支（在虚线框中以灰色显示），该模块由BFA（主干特征对齐）和SDHA（共享解码器头对齐）组成。

图4：Conv-Former块的设计（左）和卷积注意力的细节（右）。GDN表示分组双重归一化。⊗表示卷积操作，⊕代表加法，k表示核大小。

Conv-Former Block旨在模拟 Transformer 的结构，以更好地学习 Transformer 分支的语义信息，同时仅使用高效的卷积操作来实现注意力功能：

1. 结构设计：Conv-Former Block 的结构类似于典型的 Transformer 编码器。

2. 卷积注意力：为了实现低延迟和强大的语义提取能力，Conv-Former Block 的卷积注意力基于 GFA（GPU-Friendly Attention）改进而来。主要区别在于：

使用像素级卷积操作替代 GFA 中的矩阵乘法，避免了特征展平和重塑操作，以保持固有的空间结构并减少推理延迟。
通过将可学习向量扩展为可学习的核，以更好地对齐 Transformer 的语义信息。这种转换将像素与可学习向量之间的相似度计算转换为像素块与可学习核之间的相似度计算，并通过带有可学习核的卷积操作保留更多的局部空间信息。

3. 实现细节：为了提高效率，Conv-Former Block 使用条带卷积来近似标准卷积层。具体来说，使用 1×k 和 k×1 的卷积来近似 k×k 的卷积层。

4. 前馈网络（FFN）：与典型的 FFN 相比，Conv-Former Block 的 FFN 由两个标准的 3×3 卷积层组成，这比典型的 FFN 更高效，并提供了更大的感受野。

CFBlock 结合卷积和 Transformer 的特性，通过 Conv-Former 高效建模局部和全局依赖关系，能够在多种视觉任务中发挥作用，尤其是在需要平衡性能与效率的场景下（如实时检测或分割任务）。可以调整模块中卷积核的尺度、注意力头的数量以及中间通道数，以适配不同任务的需求。

注：Convolutional Attention模块也可单独拿出来使用！

四、实验分析

Cityscapes数据集上：SCTNet-B-Seg 100实现了80.5%的mIoU和62.8 FPS，这是实时分割领域的新状态最佳性能。SCTNet-B-Seg 75达到了79.8%的mIoU，比RTFormer-B和DDRNet-23等方法在准确率上更高，同时速度是它们的两倍。SCTNet-S在保持最高FPS的同时，也实现了与STDC 2、RTFormer-S、SeaFormer-B和TopFormer-B等方法相比更好的性能。
ADE 20K数据集上：SCTNet-B实现了43.0%的mIoU和145.1 FPS，比RTFormer-B快约1.6倍，同时mIoU性能高出0.9%。SCTNet-S达到了37.7%的mIoU，保持了在ADE 20K上所有方法中最高的FPS。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述