2024深度学习发论文&模型涨点之——Transformer+特征融合
Transformer和特征融合的结合是一种在计算机视觉领域中非常活跃的研究领域,它旨在通过结合Transformer的自注意力机制和特征融合技术来提高模型的性能、降低计算成本以及提升模型泛化能力。
论文精选
论文1:
HiFuse: Hierarchical multi-scale feature fusion network for medical image classification
HiFuse:用于医学图像分类的层次化多尺度特征融合网络
方法
-
三分支层次多尺度特征融合网络结构:结合了Transformer和CNN的优势,从多尺度层次中融合特征,以提高各种医学图像的分类准确性。
-
局部和全局特征块的并行层次:设计用于在不同语义尺度上高效提取局部特征和全局表示。
-
适应性层次特征融合块(HFF块):包含空间注意力、通道注意力、残差逆MLP和快捷连接,以自适应地融合不同层次尺度特征的语义信息。
创新点
-
性能提升:在ISIC2018数据集上的准确率比基线提高了7.6%,在Covid-19数据集上提高了21.5%,在Kvasir数据集上提高了10.4%。
-
适应性层次特征融合(HFF块):通过空间注意力和通道注意力自适应地融合不同尺度特征的语义信息,提高了模型的表示能力。
-
线性计算复杂度:HiFuse模型具有线性计算复杂度,与图像大小相关,这使得模型在处理大型医学图像时更加高效。
论文2:
CAFF-DINO: Multi-spectral object detection transformers with cross-attention features fusion
CAFF-DINO:多光谱目标检测变换器与交叉注意力特征融合
方法
-
多光谱目标检测架构:基于交叉注意力特征融合(CAFF)和基于变换器的检测器(DINO)。
-
交叉注意力机制:利用交叉注意力机制执行不同光谱之间的特征融合。
-
特征融合方法(CAFF):在每个抽象层次上提取新的融合特征图,然后注入到基于变换器的检测器的编码器-解码器中。
-
层次化交叉注意力操作:在特征图上执行多尺度的交叉注意力操作,以强调在不同尺度上提取特征。
创新点
-
多光谱目标检测性能提升:在红外-可见光多光谱数据集上,与最先进的方法相比,提出的方法在目标检测性能上取得了显著提升,例如在LLVIP数据集上mAP提高了4.9%,在FLIR-aligned数据集上mAP提高了9.1%。
-
交叉注意力特征融合(CAFF):该方法能够强制输入模态之间的有意义关联和相关性提取,与自注意力操作相比,交叉注意力直接关注两种模态之间的关联信息提取。
-
系统性错位的鲁棒性:研究了CAFF-DINO对图像对之间系统性错位的鲁棒性,发现在不同错位情况下,CAFF-DINO的mAP下降通常小于对比方法,显示出更好的鲁棒性。
-
模型的通用性:提出的模型是通用的,能够快速实现在大多数单模态基于变换器的检测器上,这增加了模型的适用性和灵活性。
论文3:
Anticipative Feature Fusion Transformer for Multi-Modal Action Anticipation
Anticipative Feature Fusion Transformer 用于多模态动作预测
方法
-
基于Transformer的模态融合技术:在早期阶段统一多模态数据。
-
Anticipative Feature Fusion Transformer (AFFT):结合多模态特征,并利用融合后的特征预测下一个动作。
-
特征提取器:使用预训练的特征提取器,如OMNIVORE,与中层特征融合相结合。
创新点
-
Anticipative Feature Fusion Transformer (AFFT):在中层融合提取的特征上执行,显著优于基于分数融合的方法,并在EpicKitchens-100动作预测和EGTEA Gaze+上提供最先进的结果。
-
特征融合策略:与晚期和分数融合方法不同,AFFT首先融合特征,然后使用融合后的特征来预测下一个动作。
-
性能提升:在EpicKitchens-100上,AFFT-Swin+模型在验证集上超过了当前最先进的模型MeMViT 0.8%的mean top-5 ratio动作预测性能,无需微调骨干网络。在EGTEA Gaze+上,AFFT-TSN模型在固定特征上超过了先前的工作,尤其是在类均值top-1上。
论文4:
Hybrid CNN-Transformer Feature Fusion for Single Image Deraining
用于单图像去雨的混合CNN-Transformer特征融合
方法
-
混合CNN-Transformer特征融合网络(HCT-FFN):以阶段性递进的方式,结合CNN和Transformer的个体学习优势,以帮助图像恢复。
-
退化感知混合专家(DaMoE)模块:在CNN基础阶段堆叠,使模型能够强调空间变化的雨分布特征。
-
背景感知视觉Transformer(BaViT)模块:在Transformer基础阶段使用,以补充图像的长距离依赖特征,实现全局纹理恢复。
-
交互式融合分支(IFB):在相邻阶段引入,以进一步促进高质量去雨结果的重建。
创新点
-
性能参数权衡:在Rain100L数据集上,与其它方法相比,HCT-FFN不仅重建了高质量的输出,而且实现了最佳的性能-参数权衡。
-
阶段递进学习:通过分阶段的方式逐步去除雨迹,最终阶段实现了优异的去雨质量。
-
特征融合策略:通过交互式融合分支(IFB)结合CNN和Transformer特征,提供了额外的互补信息,使模型能够自适应地学习更有用的表示。
-
扩展性:HCT-FFN的方法可以扩展到图像去雾任务,并在SateHaze1k数据集上取得了优异的性能。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。