MetaFusion: Infrared and Visible Image Fusion via Meta-Feature Embedding from Object Detection 论文解析

文章下载地址: link

1、文章核心思想

本文的初衷是想使用检测任务中富含丰富语义信息的中间特征指导融合网络,从而使融合网络能够生成包含语义信息的融合图像。但由于检测任务中的特征和融合任务中的特征并不兼容(不同的任务存在域gap,二者的特征不属于同一特征空间),直接使用检测中的特征约束融合网络效果有限。文中通过提出一个元特征嵌入网络(Meta-Feature Embedding, MFE)来消除不同任务间的gap,从而可以实现这一过程。元特征嵌入网络本质上是将检测任务中的特征和融合任务中的特征都映射到了同一个第三空间,这个第三空间起到桥接检测任务和融合任务中的中间特征的作用,从而使得不同任务间的特征可以进行交互。

又由于融合网络在保留语义信息的同时,融合图像的质量不断提高,使用质量提高的融合图像进行目标检测,检测的精度也会提高,即又提高了检测任务中的语义信息提取能力,而该能力又会提高融合任务中的语义信息保留能力,然后循环这一过程,达到联合优化目标检测和图像融合任务的目的。

2、现有的联合融合和检测任务的方式与本文比较

不同方式的比较
( a ) 分别优化检测和融合任务,先训练融合网络,然后使用融合结果训练检测网络,没有利用到检测任务中的语义信息优化融合网络;

( b ) 联合优化检测和融合任务,利用检测网络中的特征约束融合网络,但由于两个不同level任务间存在gap,直接使用检测任务中的特征约束融合任务中的特征效果不好;

( c ) 本文方式,通过引入元特征嵌入模块(MFE)使检测任务中的特征和融合任务中的特征可以进行交互,从而使用检测中的语义特征约束融合网络,使融合网络在融合红外和可将光图像时保留更多语义信息。

3、总框架

pipeline
下面主要介绍 Meta-Feature Embedding (MFE)

3.1 元特征嵌入模块(MFE)

由元特征生成(MFG)和特征转换(FT)两个模块组成。

3.2 MFG模块

MFG在Fuj(融合任务中的特征)的指导下将Fej(检测任务中的特征)转换为元特征Fmj(即将检任务中的特征转换为元特征)。

3.3 FT模块

将Fuj转换为Ftj(即将融合任务中的特征转换为Ftj)。

3.4 Lg损失

即L2损失,最小化Fmj与Ftj间的距离,即将Fmj和Ftj映射到同一个特征空间,由于Fmj是由检测任务中的特征生成,Ftj是由融合任务中的特征生成,通过Lg损失间接的将检测任务和融合任务连接起来。

3.5 Lg损失的作用

通过连接Ftj与Fmj在检测任务和融合任务中架了一座桥,从而消除不同level任务间的gap,使得两个任务中的特征可以交互,从而可以使用检测任务中富含语义信息的特征约束融合任务中的特征,从而使融合网络在融合红外和可见光时保留更多的语义信息。

下面开始介绍文中引入的 MFE 的具体工作流程,但在介绍前,先要了解一些元学习的知识。

4、元学习

学会如何学习(Learning to learn),旨在利用所学知识快速适应新任务。
辅助课程:bilibili_元学习

4.1 元学习在干什么?

在训练机器学习模型时,会把数据分为训练集和测试集,使用训练集的数据训练模型,最终关注的是模型在测试集上的效果,测试集衡量了模型的泛化能力,但是,由于在训练过程中,模型没有见过测试集的数据,因此训练的模型不能保证在测试集上的泛化性,那么有没有一种方法将模型在测试集上的泛化性也加入到训练目标中呢?元学习就是在做这件事。

4.2 元学习的训练过程

假设模型初始参数为A,先在训练集上使用正常的机器学习方法训练该模型,从而得到参数为B,然后使用参数B在测试集上测试模型效果,使用测试集上的损失更新参数B得到参数C,从参数A到参数C的过程就是一轮元学习。(参数从A到B的过程叫做内循环,从B到C的过程叫外循环)(这里的内外循环和本篇文章中的有点出入,可以借鉴思想,不能直接照搬到该篇文章)。元学习的本质是在模拟机器学习中先在训练集上训练,再在测试集上测试的过程。

4.1、4.2 节文字来源:link

下面开始介绍 MFE 的具体工作流程。

5、MFE 框架及工作原理

MEF框架
通过两个循环(内循环、外循环)使得MFG和FT可以更好的将两个任务中的特征映射到第三空间(体现在内循环中MFG、FT参数更新阶段),进而使用检测任务中的特征约束融合任务,从而使得融合任务在融合图像时保留更多语义信息(体现在内循环中融合网络F的参数更新阶段)。

5.1 内循环阶段

先使用以下公式更新融合网络F的参数(作用:增强融合网络的语义信息保留能力)

F参数更新公式
然后使用以下公式更新MFG、FT的参数(作用:将变化参数后模型生成的中间特征映射到第三空间的同时,提升自身的映射能力)

MFG、FT参数更新公式
其中,

MFG、FT梯度公式
在内循环中,需要交替进行F和MFG、FT的更新过程(这一点从论文中的“Algorithm 1 MetaFusion Training Algorithm”中也能看出来),可以按如下方式理解:
由于MFG、FT是为了更好的将检测任务和融合任务中的中间特征映射到同一个第三空间中,初始的MFG、FT只能映射初始的中间特征且映射能力不强,此时使用Lg损失更新F的参数,更新后融合网络生成的中间特征也会跟着变,而MFG、FT又要将新的中间特征均映射到第三空间,而之前MFG、FT的参数无法完成这一任务,故要更新MFG、FT的参数。MFG、FT的参数更新后,在将新的中间特征映射到第三空间中的同时,映射能力也要比上一步更好,此时在这个更好的特征映射能力下,使用Lg更新F的参数可以使F的语义信息保留能力增加,而此时F生成的中间特征又发生了变化,所以要继续更新MFG、FT,然后循环这一过程。

5.2 外循环阶段:

外循环阶段使用以下公式更新融合网络F的参数:

F参数更新公式

作用1:
上面提到,内循环需要交替更新F和MFG、FT的参数,使得F的语义信息保留能力不断提高的同时,提高MFG、FT的映射能力及适应新参数生成的中间特征的能力,但这一能力在此阶段有一个上限,达到上限后将不再提升,此时需要通过外循环进入下一个阶段(可以将内循环看作量变的过程,将外循环看作质变的过程),故在公式(6)中包含Lg一项。

作用2:
融合网络提高自身语义信息保留能力的前提是,自身生成的融合图像要先达到某一标准,而这一标准是由公式(6)中的Lf项(SSIM损失)项体现出来的(也可以将Lf损失项看作一般的的只训练融合网络过程),即在保证自身融合质量的同时提高语义信息的保留能力。

6、联合优化检测和融合任务

只有内循环和外循环只将融合网络的语义信息保留能力更新到了某一个阶段(因为此时检测任务的能力没变),在融合网络的语义信息保留能力更新了一个阶段后,融合网络的语义信息保留能力提高,此时将融合后的图像用于检测任务后将提高检测网络的能力,检测网络的能力提高后(检测网络中的特征本身就是物体的语义信息,即检测网络的语义提取信息提高),又可以再次提高融合网络的语义信息保留能力,不断循环下去,直到两个任务的能力不再变化(有点类似GAN的思想),模型训练结束。
联合优化过程

7、训练过程

遗憾的是只公布了测试代码和一个权重文件,没有公布训练代码,只能通过论文中的伪代码看一下训练过程。
训练过程
end,介绍完毕,以上都是个人理解,很可能不对!请理性看待。

  • 25
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值