论文信息
IFENet: Interaction, Fusion, and Enhancement Network for V-D-T Salient Object Detection
IFENet:用于可见光-深度-热成像三模态显著目标检测的交互、融合与增强网络
源码:https://github.com/Lx-Bao/IFENet
论文创新点
论文的4个创新点
-
多模态交互模块(IIGI):作者提出了模态间和模态内基于图的交互模块(IIGI),通过图推理机制探索模态间通道相关性和模态内长程空间依赖性。
-
基于门控注意力的融合模块(GAF):作者设计了基于门控注意力的融合模块(GAF),将“模态”视为特征空间中的一个新维度,并采用门控机制对多模态特征进行空间、通道和模态维度的过滤与融合。
-
基于频率分割的增强模块(FSE):作者提出了基于频率分割的增强模块(FSE),将融合特征分解为高频和低频分量,分别用于增强边界细节和目标位置。
摘要
可见光-深度-热成像(VDT)显著目标检测(SOD)旨在通过利用三模态信息来突出最具视觉吸引力的目标。然而,现有模型未能充分探索多模态之间的相关性和差异性,导致检测性能不尽如人意。本文提出了一种交互、融合与增强网络(IFENet)来执行VDT SOD任务,该网络包含三个关键步骤:多模态交互、多模态融合和空间增强。具体而言,基于Transformer骨干网络,IFENet能够获取多尺度多模态特征。首先,作者部署了基于图的多模态间和模态内交互(IIGI)模块,以探索模态间的通道相关性和模态内的长程空间依赖性。其次,作者采用了基于门控注意力的融合(GAF)模块来净化和聚合三模态特征,其中多模态特征分别沿空间、通道和模态维度进行过滤。最后,基于频率分割的增强(FSE)模块将融合特征分离为高频和低频分量,以增强显著目标的空间信息(即边界细节和目标位置)。在VDT-2048数据集上进行了大量实验,结果表明作者的显著性模型在13个最先进的模型中始终表现优异。
关键词
可见光、深度、热成像、三模态、显著目标检测、交互、融合、增强。
III. 提出的方法
A. 总体架构
IFENet的总体架构如图2所示。具体而言,IFENet的输入是VDT图像。为了提取多级特征,作者采用了三个Swin-Transformer作为骨干网络,这些网络共享权重。多级特征表示为、和。然后,作者通过模态间和模态内基于图的交互(IIGI)模块进行多模态交互,该模块探索多模态特征的模态间通道相关性和模态内长程空间依赖性。之后,作者通过部署基于门控注意力的融合(GAF)模块对多模态交互特征进行多模态融合,该模块净化和聚合多模态信息。最后,作者采用基于频率分割的增强(FSE)模块来增强边界细节和目标位置等空间信息。通过这种方式,作者可以生成最终的高质量预测图。
B. 模态间和模态内基于图的交互模块
图卷积已在许多研究中成功应用,它通过将图像投影为由节点和边组成的图结构来促进信息流动。因此,为了进行有效的多模态交互,作者设计了一个模态间和模态内基于图的交互(IIGI)模块,该模块探索了三种模态之间的关系。如图3所示,它由两个关键部分组成,包括通道间模态图推理单元和空间内模态图推理单元,前者捕捉模态间通道相关性,后者通过获取全局空间信息获得模态内长程空间依赖性。
具体而言,IIGI模块的输入特征是三种模态编码器特征和前一个IIGI模块的三种模态特征。作者首先通过逐元素求和将每对模态特征组合起来,并进一步利用通道交换模块减少每种模态的通道冗余,生成增强的输入特征。然后,沿通道维度,作者将每种模态的增强输入特征均匀分为组,并部署全局平均池化(GAP)生成节点嵌入,即。对于每种模态,它有个节点,每个节点可以用一个维向量表示。之后,为了建模多模态特征的通道间相关性,作者部署了通道间模态图推理单元,其中将所有节点组合起来以获得整个节点嵌入,即。随后,作者构建邻接矩阵,其可以定义为
其中表示归一化操作,表示矩阵乘法。接下来,作者进行图推理以捕捉不同节点之间的相互关系,其可以表示为
其中是新的节点嵌入(即图表示),表示非线性激活函数,是可学习参数。
在图推理之后,作者将图表示重新投影到通道权重,并进一步将其与初始模态特征相乘,从而引入多模态互补通道信息并获得初步交互特征。这里,作者以可见光分支为例,该过程可以描述为
其中FC()表示带有sigmoid激活函数的全连接层,表示逐元素乘法/求和。
最后,三个初步交互特征将分别输入到三个空间内模态图推理单元中,以探索长程空间依赖性。这里,作者首先使用图投影将每个初步交互特征向量压缩并转换为空间图节点嵌入,其中每个节点嵌入的大小为。然后,作者构建邻接矩阵,其中利用图推理来建模每个模态中不同空间区域之间的上下文语义相关性。最后,作者将图表示重新投影到最终交互特征。这里,作者以特征为例,整个过程可以表示为
其中是图投影函数,表示图重新投影,GRs()表示两次图推理操作。此外,为了促进网络的训练,作者采用了深度监督策略,其中在IIGI模块的最终输出特征上部署卷积层,并生成预测图。
C. 基于门控注意力的融合模块
在计算机视觉任务中,门控机制通常用于处理时间序列数据。受现有研究的启发,作者设计了一个基于门控注意力的融合(GAF)模块来执行多模态融合,其中将多模态特征视为时间序列数据的特殊情况,并采用门控机制同时从空间、通道和模态维度过滤特征。实际上,这是对深层特征的净化和融合。通过这种方式,作者可以隐式地保持不同模态的独立性和完整性,从而感知不同模态特征的差异性,并在融合过程中减轻低质量模态信息的负面影响。
具体而言,如图4所示,作者首先将来自三种不同模态的特征堆叠起来,其中将“模态”视为一个额外的维度,生成堆叠的多模态特征。该过程定义为
其中表示沿通道维度堆叠三个特征。随后,堆叠的多模态特征被发送到3D卷积层和sigmoid激活函数,生成特征权重。这里,为了实现每个通道中模态和空间信息的感知,3D卷积核分别在模态和空间维度上滑动。之后,作者将权重与沿空间、通道和模态维度相乘,并进一步部署残差连接以净化多模态特征,生成净化后的特征。该过程可以描述为
其中 ()表示sigmoid激活函数, ()表示3D卷积层。
最后,作者通过3D卷积进行多模态特征的最终融合。这里,与上述操作不同,作者将净化后的多模态特征重塑为。3D卷积核将在通道和空间维度上滑动,以感知每个模态的空间和通道信息。这极大地促进了多模态特征的融合,作者可以获得融合特征。该过程可以表示为
其中 ()表示3D卷积层,并用于将模态维度压缩为1。表示重塑操作。
D. 基于频率分割的增强模块
频率信息可用于减少空间冗余,其中混合特征通过频率理论进行分解。然而,它们未能充分利用高频和低频信息,这对空间信息的增强至关重要。因此,为了进行空间增强,作者设计了一个基于频率分割的增强(FSE)模块,将融合特征分解为高频和低频分量,分别用于改善边界细节和目标位置。特别是,作者探索了高频特征和低频特征之间的互补性。
形式上,如图5所示,作者首先将融合特征与前一个FSE模块的输出特征相加,生成聚合特征。然后,作者将聚合特征分为高频和低频分量。这里,低频特征通过使用平均池化层、两个卷积层和低频DCT滤波器与残差乘法获得。高频特征通过使用两个卷积层和高频DCT滤波器与残差乘法获得。该过程可以定义为
其中和分别表示高频和低频DCT滤波器。AP()表示平均池化层(步幅=2)。和分别表示和卷积层。
然后,作者挖掘高频线索和低频线索之间的互补性,如图5所示。具体而言,作者首先将两种特征发送到Pred模块,生成包括和在内的粗略预测图,分别由显著边缘和显著目标地面真值(GT)监督。这里,Pred模块由和卷积层组成。之后,高频和低频特征通过交互求和相互补充,从而获得频率增强特征。同时,为了减轻由于频域变换导致的信息丢失,作者引入了原始特征,该特征通过CBAM增强并以残差连接方式与频率特征结合。通过这种方式,作者获得了最终的增强输出特征。整个过程可以定义为
其中 ()和 ()表示卷积层。 ()表示卷积层后接上采样操作。 ()表示下采样操作后接卷积层。CBAM()表示卷积块注意力模块。最后,作者将发送到Pred模块,生成高质量预测图。通过这种方式,作者可以逐步获得预测图,其中是最终预测结果。
为了更直观地描述FSE模块,作者在图6中展示了FSE模块中的特征可视化。从图6中可以看出,FSE模块的输入特征更多地关注背景,特别是桌面。这将导致特征中的空间冗余。经过频率分割操作后,作者可以获得高频和低频特征,分别关注显著目标的边缘和主体。这可以用于增强这些特定部分。最后,通过交互和融合高频和低频特征,空间增强的输出特征可以减少对背景的关注,并更准确地建模显著目标的表示。
IV. 实验
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。