DDcGAN：用于多分辨率图像融合的双判别器生成对抗网络

最新推荐文章于 2025-04-01 20:19:55 发布

Change_ZH

最新推荐文章于 2025-04-01 20:19:55 发布

阅读量2.5w

点赞数 45

分类专栏：深度学习文章标签：人工智能深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/qq_36449741/article/details/105226802

版权

深度学习专栏收录该内容

60 篇文章

订阅专栏

📝论文下载地址

[论文地址]

🔨代码下载地址

[GitHub-official-Tensorflow]
[GitHub-unofficial-PyTorch]

👨‍🎓论文作者

Jiayi Ma,HanXu, Junjun Jiang, Xiaoguang Mei, and Xiao-Ping Zhang,Senior Member, IEEE

📦模型讲解

[背景介绍]

GAN是Generative Adversarial Networks的缩写译为生成对抗模型，GAN最早是2014年提出的网络模型，有兴趣可以去看原文[Generative Adversarial Networks]。GAN在近几年是一个比较热门的研究话题，它可以生成想要的图片，如下图所示，可以将图片中原本的马或斑马互相交换，或者是夏天和冬天风景的互换：

或者是近期比较热门的风格转换，可以把实际拍到的图片转换成油画、二次元等风格：

另外还有图像的修复、换脸等应用，这里有几百种GAN的网络，可以访问[GAN-ZOO]。
传统的GAN主要由两部分组成：Generative Network和Adversarial Network也就是生成网络和判别网络，也叫生成器和判别器。在GAN中两个网络是单独进行训练。首先训练判别器，让判别器能够对图片的真假进行判别。之后训练生成器，通过生成器生成图像，利用判别器生成的图像进行判别。
如果样本服从真实分布 $P_{data}(x)$ ，生成器会从样本 ${x^1,x^2,...,x^m\}$ 的概率分布 $P_{data}(x)$ 中学习由 $\theta$ 参数化的模型 $P_{model}(x;\theta)$ ，其中 $P_{model}(x;\theta)$ 是高斯混合模型。生成样本的可能性定义如下： $L=\prod_{i=1}^mP_{model}(x^i;\theta)$ 执行最大似然估计：
$\theta^*=\argmax_\theta\sum_{i=1}^m\log P_{model}(x^i;\theta)$
可以认为是使 $P_{data}(x)$ 和 $P_{model}(x;θ)$ 之间的Kullback-Liebler方差最小化。但是，如果 $P_{model}(x;θ)$ 是更为复杂的概率分布，则很难计算其似然函数来执行最大似然估计。为了解决这个问题，GAN通过同时训练两个模型（生成器 $G$ 和判别器 $D$ ），通过对抗过程来估计生成模型。
生成器是一个可以捕获数据分布并生成新样本的网络。如果输入从潜在空间采样的噪声 $z$ ，它将生成一个样本 $x = G (z)$ 。借助神经网络，由生成器生成的样本形成的概率分布 $P_G(x)$ 变得更加复杂。 $G$ 的训练目标是使 $P_G(x)$ 和 $P_{data}(x)$ 尽可能接近，并且优化公式可以定义为：
$G^*=\argmin_GDiv(P_G(x),P_{data}(x))$
其中 $D i v (\cdot)$ 表示两个分布之间的差异。但是，由于 $P_G$ 和 $P_{data}$ 的公式未知，因此难以计算差异。
判别器 $D$ 可以巧妙地用于解决此问题，因为它会判断样本来自训练数据而不是 $G$ 生成的概率。 $D$ 的目标函数可以表示为：
$D^*=\argmax_DV(G,D)$
其中 $V (G, D)$ 定义如下：
$V(G,D)=\mathbb E_{x\sim P_{data}}[\log D(x)]+\mathbb E_{x\sim P_{G}}[\log (1-D(x))]$
上式较大时意味着 $P_G$ 和 $P_{data}$ 的Jensen-Shannon（JS）差异很大，并且易于区分。因此，可以将 $G$ 的优化公式转换为:
$G^*=\arg\min_G\max_D V(G,D)$
当训练 $G$ 时，判别器 $D$ 是固定的。 $G$ 和 $D$ 的对抗过程组成了一个两人游戏，其中 $G$ 试图欺骗 $D$ ，而 $D$ 被训练来辨别生成的数据。因此，生成的样本与真实数据越来越难以区分。
如果生成器和判别器都以某种额外信息为条件，则GAN可以扩展为条件模型，这些信息可以是任何种类的辅助信息。可以通过提供额外信息作为附加输入层来执行条件化，并且将该模型定义为条件生成对抗网络，也就是条件GAN，cGAN。

[论文解读]

本文中作者提出了一种通过双判别器条件GAN（DDcGAN）的融合方法。

[DDcGAN总体结构]

作者提出的DDcGAN的整个过程如下图所示。

给定可见图像 $v$ 和红外图像 $i$ ，作者假设可见图像 $v$ 的分辨率是红外图像 $i$ 分辨率的4×4倍。最终目标是学习以它们为条件的生成器 $G$ ，并鼓励生成的图像 $G (v, i)$ 足够实际和有用，以欺骗判别器。判别器的输出是一个概率，表示输入是真实数据不是生成器 $G$ 生成的概率。
$D_v$ 旨在将生成的图像与可见图像区分开，而 $D_i$ 则经过训练以区分原始的低分辨率红外图像 $i$ 和下采样（平均池化）的生成/融合图像。
注意为了在生成器和判别器之间保持平衡，除了输入鉴别器外，作者不将源图像 $v$ 和 $i$ 作为附加/条件信息提供给 $D_v$ 和 $D_i$ 。即每个判别器的输入层是包含样本数据的单通道，而不是同时包含样本数据和对应的源图像作为条件信息的两通道。因为当条件和待判别的样本相同时，判别任务被简化以判断输入图像是否相同，这对于神经网络来说太简单了。当生成器无法欺骗鉴别器时，对抗关系将无法建立，并且生成器将倾向于随机生成。因此，该模型将失去其原始含义。注意作者的意思可能是判别器的设计输入的是一张图片，如果是源图 $v$ 或者 $i$ 那么判别器输出应该是“real”，如果输入是样本图像也就是 $G$ 生成的图像，判别器输出应该是是“fake”，这也就对应上面的结构图，两者要输入一个。如果样本图像在判别器后输出的是“real”的话就不会构成对抗关系了，应该是这个意思。如果大家认为我理解有误，可以评论告诉我。
将下采样算符表示为 $ψ$ ，由两个平均池化层实现。,这两层的kernal_size为3×3，stride为2。因此， $G$ 的训练目标可以表述为最小化以下对抗目标：
$\min_G\max_{D_v,D_i}\{\mathbb E[\log D_v(v)]+\mathbb E[\log (1-D_v(G(v,i)))]\\ +\mathbb E[\log D_i(i)]+\mathbb E[\log(1-D_i(ψG(v,i)))]\}$
相反，判别器的目的是使上式最大化。
通过生成器 $G$ 和两个判别器（ $D_v$ 和 $D_i$ ）的对抗过程， $P_G$ 和两个实际分布（即 $P_V$ 和 $P_I$ ）之间的差异将同时变小，其中 $P_G$ 是生成样本的概率分布， $P_V$ 是可见图像的真实分布， $P_I$ 是红外图像的分布。

[损失函数]

在本文中，生成器不仅被训练来欺骗判别器，而且还被要求约束内容中生成的图像和源图像之间的相似性。因此，生成器的损失函数由对抗损失 $\mathcal L^{adv}_G$ 和内容损失 $\mathcal L_{con}$ 组成，权重 $λ$ 控制权衡：
$\mathcal L_G=\mathcal L^{adv}_G+\lambda\mathcal L_{con}\\\mathcal L^{adv}_G=\mathbb E[\log(1-D_v(G(v,i)))]+\mathbb E[\log(1-D_i(ψG(v,i)))]$
作者使用Frobenius范数来约束融合而图像的强度信息，使其与输入的红外图像更相似。而融合图像的梯度信息则是由可见光继承，利用TV损失函数：
$\mathcal L_{con}=\mathbb E[||ψG(v,i)-i||^2_F+η||G(v,i)-v||_{TV}]$
上面是针对生成器的损失，下面是判别器 $D_v$ 与 $D_i$ 的损失:
$\mathcal L_{D_v}=\mathbb E[-\log D_v(v)]+\mathbb E[-\log (1-D_v(G(v,i))]\\ \mathcal L_{D_i}==\mathbb E[-\log D_i(i)]+\mathbb E[-\log (1-D_i(ψG(v,i))]$

[网络具体结构]

[生成器]

生成器由2个反卷积层，一个编码器网络和一个对应的解码器网络组成，如下图所示。

由于红外图像的分辨率较低，反卷积是为了提高图像的分辨率，同时还将可见图像通过另一个独立的反卷积层，该层会生成具有相同分辨率的特征图，这里是为了统一可见光与红外的分辨率。将反卷积层获得的结果进行通道相连作为编码器的输入。特征提取和融合的过程都在编码器中执行，并生成融合的特征图作为输出。然后featuremap输入到解码器以进行重构，并且所生成的融合图像具有与可见图像相同的分辨率。

[判别器]

判别器旨在对生成器起对抗作用。 $D_v$ 和 $D_i$ 旨在分别将产生的图像与可见图像和红外图像区分开。不仅应考虑生成器和判别器之间的对抗关系，还应考虑 $D_v$ 与 $D_i$ 的平衡。否则，随着训练的进行，一个的优势或劣势最终将导致另一个的效率低下。

判别器 $D_v$ 和 $D_i$ 共享相同的体系结构，与生成器体系结构相比，其设置要简单一些，如上图所示。所有卷积层的stride都设置为2。在最后一层，使用Tanh函数生成标量，该标量代表是源图像而不是 $G$ 生成的概率。

[医学影像的融合]

作者将提出的方法应用于融合图像，例如MRI和PET图像融合。将以假彩色显示的PET图像视为彩色图像，并将DDcGAN用于融合高分辨率MRI图像和低分辨率强度的PET图像。MRI图像在以高空间分辨率捕获大脑，心脏和肺等器官的软组织结构细节方面表现出色。PET图像通过核医学成像获得，以提供功能和代谢信息，例如血流和供水活动。

假设MRI图像的分辨率是PET图像的4×4倍。整个融合过程如上图所示。首先对具有RGB通道的多光谱输入PET图像进行变换到IHS，其中强度通道显示光谱的亮度，色相通道显示光谱波长的属性，饱和度通道显示光谱的纯度： $\left(\begin{array}{c} \text {I}_{PET} \\ V 1 _{PET} \\ V 2 _{PET} \end{array}\right)=\left[\begin{array}{ccc} 1 / \sqrt{3} & 1 / \sqrt{3} & 1 / \sqrt{3} \\ 1 / \sqrt{6} & 1 / \sqrt{6} & -2 / \sqrt{6} \\ 1 / \sqrt{2} & -1 / \sqrt{2} & 0 \end{array}\right]\left(\begin{array}{c} R_{\mathrm{PET}} \\ G_{\mathrm{PET}} \\ B_{\mathrm{PET}} \end{array}\right)$
H和S通道的分量可以用变量V1和V2表示，如下所示： $\begin{array}{l} H_{\mathrm{PET}}=\tan ^{-1}\left(\frac{V 1_{\mathrm{PET}}}{V 2_{\mathrm{PET}}}\right) \\ S_{\mathrm{PET}}=\sqrt{V 1_{\mathrm{PET}}^{2}+V 2_{\mathrm{PET}}^{2}} \end{array}$
融合过程是在PET图像和MRI图像的I通道的分量上产生的。也就是说，只有I通道才会进行融合。 $I_{fuse} = G(M,IPET)$
在训练过程中，判别器 $D_i$ 被训练以区分 $I_{fuse}$ 和 $I_{PET}$ 之间的差异，而判别器 $D_v$ 获得MRI图像而不是 $G$ 生成的概率。因此，损失函数可以表示为：
$\mathcal L_G=\mathcal L_G^{adv}+\lambda\mathcal L_{con}$
其中 $\mathcal L_G^{adv}$ 与 $\mathcal L_{con}$ 定义为：
$\mathcal L_{con}=\mathbb E[\log(1-D_v(G(M,I_{PET})))]+\mathbb E[\log(1-D_i(ψG(M,I_{PET})))]\\ \mathcal L_{con}=\mathbb E[||ψG(M,I_{PET})-I_{PET}||^2_F+η‖G(M,I_{PET})−M‖_{TV}]$
以上是生成器的损失，判别器损失如下： $\begin{aligned} \mathcal{L}_{D_{v}}=& \mathbb{E}\left[-\log D_{v}(M)\right] \\ &+\mathbb{E}\left[-\log \left(1-D_{v}\left(G\left(M, I_{\mathrm{PET}}\right)\right)\right)\right] \\ \mathcal{L}_{D_{i}}=& \mathbb{E}\left[-\log D_{i}\left(I_{\mathrm{PET}}\right)\right] \\ &+\mathbb{E}\left[-\log \left(1-D_{i}\left(\psi G\left(M, I_{\mathrm{PET}}\right)\right)\right)\right] \end{aligned}$
为了保留PET图像中的色度信息，PET图像和融合图像的H和S通道的分量应尽可能相同。对于这两个通道，作者直接采用双三次插值作为上采样操作。上采样的分量表示为 $H_{new}$ 和 $S_{new}$ ，其分辨率均为 $H_{PET}$ 和 $S_{PET}$ 的4×4倍，那么可以得到：
$V1_{new}=S_{new}sinH_{new}\\V2_{new}=S_{new}cosH_{new}$
从IHS通道获得RGB通道中最终融合图像的逆变换可以表示为：
$\left(\begin{array}{l} R_{\text {new }} \\ G_{\text {new }} \\ B_{\text {new }} \end{array}\right)=\left[\begin{array}{ccc} 1 / \sqrt{3} & 1 / \sqrt{6} & 1 / \sqrt{2} \\ 1 / \sqrt{3} & 1 / \sqrt{6} & -1 / \sqrt{2} \\ 1 / \sqrt{3} & -2 / \sqrt{6} & 0 \end{array}\right]\left(\begin{array}{c} I_{\text {fusc }} \\ V 1_{\text {new }} \\ V 2_{\text {new }} \end{array}\right)$

[结果分析]

[数据集以及参数设置]

作者在公开可用的TNO数据集上验证了DDcGAN图像融合方法。从数据集中选择36对红外图像和可见图像，并将它们裁剪为27264个像素对，分辨率为84×84。当用于融合不同分辨率的图像时，作者将红外图像下采样到四分之一分辨率。因此，所有可见图像patch的尺寸为84×84，所有红外图像patch的尺寸为21×21。
DDcGAN在MRI和PET图像融合中的应用在哈佛医学院网站上进行了验证。原始PET和MRI图像的尺寸均为256×256。为了验证方法在融合不同分辨率的图像上的有效性，将PET图像的每个通道下采样到64×64的大小。下载了83对PET和MRI对，并将其裁剪为9984个补丁对作为训练集。同样，所有MRI的patch的大小为84×84，所有PET图像的patch的大小为21×21。

[训练细节]

模型中的参数设置为 $λ = 0.5$ 和 $η = 1.2$ 。整个网络以 $2×10^{-3}$ 的学习率进行训练，每个周期后指数衰减至原始值的0.75，批次大小设置为24。详细的训练过程可以查看下表：

算法1 DDcGAN的训练过程
参数说明： $G、D_v、D_i$ 的训练步数分别表示为 $I_G、I_{D_v}、I_{D_i}$ 。 $I_{max}$ 是训练的最大步数， $I_{max}=20$ 。 $\\\mathcal L_{max}、\mathcal L_{min}、\mathcal L_{Gmax}$ 是停止训练的标志。 $\\\mathcal L_{max}、\mathcal L_{min}$ 是 $G$ 和 $D$ 之间的对抗损失， $\mathcal L_{Gmax}$ 是 $G$ 的总损失。 $\\\mathcal L_{max}=1.8$ ， $\mathcal L_{min}=1.2$ ， $\mathcal L_{Gmax}=0.8×\mathcal L_G$
初始化 $D_v$ 和 $D_i$ 的参数 $\theta_{D_v}$ 与 $\theta_{D_i}$ ，初始化 $G$ 的参数 $\theta_{G}$ ;
在每次训练迭代中：
— 训练判别器 $D_V$ 和 $D_i$
● $m$ 张红外图像 ${v^1,...,v^m\}$ ，以及对应的可见光图像 ${i^1,...,i^m\}$ 。
●获得生成器生成的数据 ${G(v^1,i^1),...,G(v^1,i^m)\}$ 。
●通过SGD优化器最小化损失 $\mathcal L_{D_v}$ 更新判别器参数 $\theta_{D_v}$ ；(步骤 1)
●通过SGD优化器最小化损失 $\mathcal L_{D_i}$ 更新判别器参数 $\theta_{D_i}$ ；(步骤 2)
●当 $\mathcal L_{D_v}>\mathcal L_{max}$ 并且 $I_{D_v}<I_{max}$ 时重复 (步骤 1)，令 $I_{D_v}←I_{D_v}+1$ 。
●当 $\mathcal L_{D_i}>\mathcal L_{max}$ 并且 $I_{D_i}<I_{max}$ 时重复 (步骤 2)，令 $I_{D_i}←I_{D_i}+1$ 。
— 训练生成器 $G$
● $m$ 张红外图像 ${v^1,...,v^m\}$ ，以及对应的可见光图像 ${i^1,...,i^m\}$ 。
●获得生成器生成的数据 ${G(v^1,i^1),...,G(v^1,i^m)\}$ 。
●通过RMSProp优化器最小化损失 $\mathcal L_{G}$ 更新生成器参数 $\theta_{G}$ ；(步骤 3)
●当 $\mathcal L_{D_v}<\mathcal L_{min}$ 或者 $\mathcal L_{D_i}<\mathcal L_{min}$ ，并且 $I_{G}<I_{max}$ 时通过RMSProp优化器最小化损失 $\mathcal L^{adv}_{G}$ 更新生成器参数 $\theta_{G}$ ，令 $I_{G}←I_{G}+1$ 。
●当 $\mathcal L_{G}>\mathcal L_{Gmax}$ 并且 $I_{G}<I_{max}$ 时重复 (步骤 3)，令 $I_{G}←I_{G}+1$ 。