DRF: Disentangled Representation for Visible and Infrared Image Fusion

1.摘要

在这篇文章中,我们提出了一种新的分解方法,通过应用可见光和红外图像融合(DRF)的disentangled representation(解离化表示)。根据成像原理,我们根据可见光和红外图像的信息来源进行分解。更具体地说、 我们将图像分别通过相应的编码器分别将图像分解成与场景传感器模态(属性)相关的表征。这样一来,由属性相关表示法所定义的独特信息就更接近于每一类传感器单独捕获的信息。因此,不适当地提取独特信息的问题可以得到缓解。然后,不同的策略被应用于这些不同类型表征的融合。最后,融合后的表征被送入预训练的生成器以生成融合的结果

注:解离化旨在对数据变化因素进行建模,是指将embedding拆分成不同维度,使得每一个维度可以代表一种语义。这样做一来可以增加可解释性,二来因为加了constraint而使模型更稳固。

2.引言

从源图像中提取特征的方法:

  • 基于多尺度变换的方法:金字塔变换(将源图像分解为多尺度的空间频带),小波变换(将源图像分解为一系列高频和低频子图像);
  • 基于稀疏表示的方法:不同类型源图像由相同的学习过完备字典及其各自的稀疏表示系数来进行稀疏表示;
  • 低秩表示:从源图像中分解出低秩结构和显著成分。为了提取显著分量,学习并共享一个名为显著系数矩阵的投影矩阵,用于不同的源图像。

以上方法存在问题:即使源图像被分解为一系列部分,这些方法仍在这些分解的VIS和IR图像组件中使用相同的表示,而忽略了它们的不同模态。例如小波变换,相同频率的子图像就有相同的表示。(IR和VIS图像使用相同的表示是不合适的,会导致信息的冗余或失真。)

之前的融合方法中对VIS和IR都应用相同的表示,由于在红外图像中,高频信息表示不同物体和目标的边界,而在可见光图像中,高频信息表示大量的纹理信息,二者在融合后的图像中要保留的话,需要在高频这个尺度上进行融合,但这个过程必然会丢失其他信息,但如果加上其他尺度上的融合,可能存在这样的情况:红外图像和可见光图像的子图像都含有很少的信息,如果这样去保留信息必然会导致保留不太重要的信息。

为了解决上述问题,也有方法选择用手动方式描述或拆分每个源图像中的独特/唯一信息,比如利用**像素强度分布(pixel intensity distribution)来描述IR图像中的热辐射信息,利用梯度(gradients)**表征VIS图像中的反射光照信息。但这些并不能完全表征每个源图像的独特信息。(比如IR图像的梯度中也包含独特的热辐射信息)

本文提出新的分解方法(DRF),目标是从源图像的成像过程出发,尽可能地从源图像中的公共信息中分离出独特信息。IR和VIS图像成像过程的异同点:相同点是同一场景拍摄,包含大量的信息;不同点是传感器使用特定的成像方式来捕获原始信息的一部分。IR和VIS图像以不同的表示呈现同一场景,包括梯度、对比度和光照度。因此,我们不是根据信息表示的形式(如频率、稀疏系数和显著成分(salient components))而是信息的来源进行分解。具体的说,将源图像分解为两部分:来自场景的信息(公共)和与传感器模态相关(独特)的信息。

在DRF中,我们应用disentangled表示法来分解源图像中的场景和属性表示。两种编码器,一个是scene encoder提取场景公共信息,一个是attribute encoder提取传感器属性信息。两个scene encoder构成伪暹罗网络(pseudo-Siamese),即有相同类型的网络结构但不共享权值。利用场景编码器提取场景表示作为公共信息,并且利用属性编码器提取属性表示作为唯一信息。

本文的贡献点是:

  • 我们介绍了一种新的分解方法的图像融合。提出了一种新的观点,即源图像是由场景和传感器模态共同作用形成的。在此基础上,我们分解的源图像的信息来源,而不是在现有的基于分解的融合方法的信息表示形式。
  • 从上述观点出发,我们引入了用于图像融合的分解表示。我们通过编码器将可视图像和红外图像分解为场景和属性相关的表示。然后,分别采用不同的策略对这些表征进行融合。最后,融合后的表征被送入一个预训练的生成器,以生成融合结果。因此,我们方法中的每个网络也有更好的可解释性。

3.方法

3.1 Disentangle Scene and Attribute Representations

给定一个VIS图像 x x x属于域 χ \chi χ和一个IR图像 y y y属于域 y \large y y,我们的目标就是把原图像分成一个共享域不变的场景空间和一个特定的属性空间,由于这个属性空间对于每个域是不同的,所以将域 χ \chi χ的属性空间表示为 A χ A_{\chi} Aχ以及域 y \large y y表示为 A y A_{\large y} Ay,IR和VIS图像对于场景信息的表示不同,所以对于 χ − > S \chi -> S χ>S y − > S \large y ->S y>S的映射不能以相同的方式实现,换句话也就是说不能用同样的函数/参数从源图像 x x x y y y中提取场景信息

所以我们设计了两个场景encoder { E χ s : χ − > S , E y s : y − > S \lbrace E^s_{\chi}:\chi ->S,E^s_y:y->S {Eχs:χ>S,Eys:y>S,如下图2所示,两个encoder有相同的网络架构但没有相同的权重,此外由于两种模态差异很大,也设计了两个属性encoder { E χ a , E y a } \lbrace E^a_{\chi},E^a_y\rbrace {Eχa,Eya}去学习 χ − > A χ a n d y − > A y \chi ->A_{\chi}\quad and\quad \large y ->A_y χ>Aχandy>Ay
在这里插入图片描述

在这里插入图片描述

考虑到场景信息与空间和位置直接相关,场景表示以特征图的形式呈现,如图1所示,而属性与传感器模态相关,并且不期望携带场景信息。因此,向量的形式比特征图更适合于属性信息。对于源图像 x x x,场景特征 s x s_x sx和属性向量 a x a_x ax可以被编码为 { s x , a x } = { E χ s ( x ) , E χ a ( x ) } , s x ∈ S , a x ∈ A χ \lbrace s_x,a_x \rbrace = \lbrace E^s_{\chi}(x),E^a_{\chi}(x) \rbrace, \quad s_x\in S,a_x \in A_{\chi} {sx,ax}={Eχs(x),Eχa(x)},sxS,axAχ

同理,源图像y可以被表示为 { s y , a y } = { E y s ( y ) , E y a ( y ) } , s y ∈ S , a x ∈ A y \lbrace s_y,a_y \rbrace = \lbrace E^s_{y}(y),E^a_{y}(y) \rbrace,\quad s_y\in S,a_x \in A_{y} {sy,ay}={Eys(y),Eya(y)},syS,axAy

为了实现表示解纠缠,我们执行三个策略

  • 共享 E χ s a n d E y s E^s_{\chi}\quad and \quad E^s_y EχsandEys最后一层的权重。这样,图像的场景特征两个域可以嵌入到一个共同的空间。然而,共享高级层的权重的方式不能保证场景编码器从两个不同的领域编码相同的信息。
  • 因此,在场景特征图上有了一个约束,使 E χ s a n d E y s E^s_{\chi} and E^s_y EχsandEys能从两个域中编码相同的场景特征图
  • 第三,为了抑制来自属性空间的场景信息,我们对属性向量 a x a_x ax a y a_y ay的分布执行约束。因此,属性编码器将不对场景相关信息进行编码。

为了使这两种类型的信息能够表示源图像,所以应该能够让 S S S A A A映射回原始视觉域,所以采用一个生成网络G去学习反映射,考虑到 A χ A_{\chi} Aχ A y A_y Ay对于发生器是不一致的,并且考虑到随后的融合过程, { S , A χ } − > χ \lbrace S,A_{\chi} \rbrace ->\chi {S,Aχ}>χ { S , A y } − > y \lbrace S,A_{y} \rbrace -> \large y {S,Ay}>y 共享相同的生成器,一方面,原始源图像被期望以场景和从其分离的属性表示为条件来重建。具体地,以 { s x , a x } \lbrace s_x,a_x\rbrace {sxax} { s y , a y } \lbrace{s_y,a_y}\rbrace {syay}为条件,重建图像可以被定义为 x ^ = G ( s x , a x ) , y ^ = G ( s y , a y ) \hat{x} =G(s_x,a_x), \hat{y}=G(s_y,a_y) x^=G(sx,ax),y^=G(sy,ay)另一方面, S S S被期望能够从 χ \chi χ y \large y y去捕捉信息, 而 A χ A_{\chi} Aχ A y A_y Ay应该捕获领域特定属性而不携带领域不变的场景相关线索。

假设 x x x y y y是对同一场景的描述,那么 s x s_x sx s y s_y sy应该是相似的。因此,给定不同的属性向量,由G生成的图像被假定为与从其提取属性向量的那些原始图像相同。例如,以 s x s_x sx a y a_y ay为条件,G执行如下转换: y x = G ( s x , a y ) y_x = G(s_x,a_y) yx=G(sx,ay)其中 y x y_x yx x x x的场景信息和来自 y y y的属性信息生成的伪 y y y

如图2所示。 y x y_x yx y y y属于相同的域 y \large y y。由于在图像融合问题中存在成对的源图像,因此 y x y_x yx y y y应该保持像素级的一致性。类似地,经变换的类 x x x图像可以被定义为: x y = G ( s y , a x ) x_y = G(s_y,a_x) xy=G(sy,ax) x y x_y xy是利用 y y y的场景信息和 x x x的属性信息生成的伪 x x x

4.Loss Functions

4.1 Scene Feature Consistency Loss

假设x和y是同一场景的描述,则它们的场景特征应该是相似的。因此,场景特征一致性损失在 s x s_x sx s x s_x sx上被定义为 L s c e n e = ∣ ∣ s x − s y ∣ ∣ 1 L_{scene}=||s_x-s_y||_1 Lscene=∣∣sxsy1

4.2 Attribute Distribution Loss

基于disentangled representation,我们期望尽可能多的抑制来自属性空间的场景信息,期望属性表示尽可能接近先验高斯分布。有实验表明KL项鼓励disentangle,为了实现这一目标,我们通过测量属性向量 a x a_x ax a y a_y ay的分布与先验高斯分布之间的KL散度来对属性向量 a x a_x ax a y a_y ay的分布执行约束 L a t t r = E [ D K L ( ( a x ) ∣ ∣ N ( 0 , 1 ) ) ] + E [ D K L ( ( a y ) ∣ ∣ N ( 0 , 1 ) ) ] L_{attr}=E[D_{KL}((a_x)||N(0,1))]+E[D_{KL}((a_y)||N(0,1))] Lattr=E[DKL((ax)∣∣N(0,1))]+E[DKL((ay)∣∣N(0,1))]

4.3 Self-Reconstruction Loss

期望在场景和从其分离的属性表示的条件下重建原始源图像。也就是说,生成器G应该能够将场景特征和属性向量解码回原始源图像。因此,我们执行一个自重建损失,使重建图像达到高保真度与原始的。自我重建损失具体定义为 L r e c o n = ∣ ∣ x − x ^ ∣ ∣ 1 + ∣ ∣ y − y ^ ∣ ∣ 1 L_{recon}=||x-\hat{x}||_1+||y-\hat{y}||_1 Lrecon=∣∣xx^1+∣∣yy^1

4.4 Domain-Translation Loss

以一个源图像的场景特征和另一个源图像的属性向量为条件来生成的经变换的图像,所述属性向量被定义为 { x y , y x } = { G ( s y , a x ) , G ( s x , a y ) } \lbrace x_y,y_x \rbrace=\lbrace G(s_y,a_x),G(s_x,a_y)\rbrace {xyyx}={G(syax),G(sxay)}

假定 x x x y y y是图像融合问题中的成对源图像, y y y x x x的域 y \large y y中的理想变换图像。类似地, x x x x y x_y xy的期望结果。

因此,可以对变换后的图像执行像素级约束,其定义如下: L t r a n d o m a i n = ∣ ∣ x − x y ∣ ∣ + ∣ ∣ y − y x ∣ ∣ 1 L_{tran}^{domain}=||x-x_y||+||y-y_x||_1 Ltrandomain=∣∣xxy∣∣+∣∣yyx1

因此,完全损失函数被定义为 L = L s c e n e + ω a t t r L a t t r + ω r e c o n L r e c o n + ω t r a n L t r a n d o m a i n L=L_{scene}+\omega_{attr}L_{attr}+\omega_{recon}L_{recon}+\omega_{tran}L_{tran}^{domain} L=Lscene+ωattrLattr+ωreconLrecon+ωtranLtrandomain

其中 W a t t r 、 W r e c e o n 和 W t r a n W_{attr}、W_{receon}和W_{tran} WattrWreceonWtran是控制每个项的折衷的超参数。四个编码 E χ s , E χ a , E χ s , E χ a {E^s_{\chi} ,E^a_{\chi},E^s_{\chi},E^a_{\chi}} EχsEχaEχsEχa和生成器G中的参数通过最小化中定义的 L L L来优化。

5. Network Architecture

5.1 Scene Encoders

图3中示出了两个场景编码器{ E χ s E^s_{\chi} Eχs E y s E^s_{\large y} Eys}的网络架构。它由七层组成,包括五个残差块和两个卷积层。残差块通过输入和输出之间的直接连接来缓解消失梯度和退化问题。残差块的具体架构如图4所示。激活函数是Leaky ReLU。

在这里插入图片描述
在这里插入图片描述
在卷积层之后,使用实例归一化,其可以表示为 I N ( u ) = γ ( u − u ˉ δ ) + β IN(u)=\gamma(\frac{u-\bar{u}}{\delta})+\beta IN(u)=γ(δuuˉ)+β

其中其中N、H、W和C分别表示批次大小、高度、宽度和通道数量。γ和β是仿射参数 u ˉ \bar{u} uˉ和σ ∈ R N × C R^{N×C} RN×C是在空间维度上计算的平均值和SD,在数学上定义为

u ˉ n c = 1 H W ∑ h = 1 H ∑ w = 1 W u n h w c \bar{u}_{nc}= \frac{1}{HW}\sum_{h=1}^H\sum_{w=1}^{W}u_{nhwc} uˉnc=HW1h=1Hw=1Wunhwc

σ n c = 1 H W ∑ h = 1 H ∑ w = 1 W ( u n h w c − u ˉ n c ) 2 + ϵ \sigma_{nc} =\sqrt \frac{1}{HW}\sum_{h=1}^H\sum_{w=1}^{W}(u_{nhwc}-\bar{u}_{nc})^2+\epsilon σnc=HW1 h=1Hw=1W(unhwcuˉnc)2+ϵ

另外,基于从域 χ \chi χ y \large y y提取的场景特征共享相同场景空间S的假设,我们共享场景编码器中的最后残差块的权重。更具体地, E χ s E^s_{\chi} Eχs E y s E^s_{\large y} Eys共享图3中的resblock5的权重。以这种方式,场景表示被强制映射到公共场景空间中。

5.2 Attribute Encoders

如图5所示,属性编码器的前五层是传统的卷积层,内核大小设置为5×5,步长设置为2。然后,通过跨空间维度的全局平均池化层,将属性信息映射为向量。通过第六个卷积层,获得最终的z维属性向量。为了使 A x A_x Ax A y A_y Ay成为生成元的两个不同的属性空间,我们给予 A y A_y Ay中的属性向量一个偏置,使它们与 A x A_x Ax中的属性向量区分开来。

在这里插入图片描述

5.3 Generator

生成器G的网络架构如图6所示。对于场景特征,它们首先通过残差块。对于属性向量,将其平铺为与场景特征相同的宽度和高度。第一残差块的输出和平铺层的输出被级联并馈送到后续残差块中。然后,两个反卷积层用于对特征图进行上采样。值得注意的是,场景特征的空间分辨率降低到原始图像的四分之一,因此丢失了许多高质量的纹理细节。受U-net 的启发,为了保留丢失的信息,场景编码器中的第一残差块的输出,即,低级特征也被用作场景信息的一部分。它与第二个反卷积层的输出级联,并被馈送到发生器中的第一个卷积层。在通过以下四个卷积层之后,特征图的通道逐渐减少到原始图像的通道。通过双曲正切激活函数,生成重建图像。
在这里插入图片描述

值得注意的是,由于实例规范化统一了图像的风格(属性),引入实例规范化不利于生成各种风格的图像。因此,在生成器中的卷积层之后不应用实例归一化。

6.Fusion Block

利用预训练的编码器和生成器,根据disentangled representation分别对场景空间S和属性空间A执行融合过程。

6.1 Scene Representation Fusion

场景特征 s x s_x sx s y s_y sy被假设为共享相同的场景。此外,基于两个场景编码器的最后残差块之间的权重共享策略和定义的场景特征一致性损失,将 s x s_x sx s y s_y sy映射到公共场景空间中。因此,我们执行平均策略以获得融合的场景特征为 s f = s x + s y 2 s_f = \frac{s_x+s_y}{2} sf=2sx+sy

6.2 Attribute Representation Fusion

对于属性向量,我们直接应用加法融合策略。融合属性向量定义为 a f = λ a x + ( 1 − λ ) a y a_f=\lambda a_x +(1-\lambda)a_y af=λax+(1λ)ay

其中λ是0和1之间的超参数,其用于调制融合结果的呈现属性。具体地,当λ = 0时,融合结果看起来像属于视觉域 y \large y y的图像;当λ = 1时,结果似乎与域 χ \chi χ中的图像相似。

最后,融合的场景特征和融合的属性向量被馈送到预训练的生成器中以产生最终的融合图像f,其可以表示为 f = G ( s f , a f ) f=G(s_f,a_f) f=G(sf,af)

7.Implementations

数据集:TNO, RoadScene

在这篇文章中,我们提出了一种新的分解方法,红外和可见光图像融合应用解纠缠表示,命名为DRF。根据成像原理,对可见光和红外图像进行信息源分解。更具体地说,我们通过相应的编码器去解开场景和传感器的模态(属性)相关的表示。然后,不同的策略应用于这些不同类型的表示的融合。最后,将融合的表示馈送到预先训练的生成器中以生成融合结果。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值