【论文阅读笔记】AutoEncoder-Driven Multimodal Collaborative Learning for Medical Image Synthesis

最新推荐文章于 2024-08-24 01:15:00 发布

寸先生的牛马庄园

最新推荐文章于 2024-08-24 01:15:00 发布

阅读量1.2k

点赞数 21

分类专栏：多模态与缺失模态深度学习文章标签：论文阅读笔记

本文链接：https://blog.csdn.net/cskywit/article/details/134659114

版权

深度学习同时被 2 个专栏收录

46 篇文章

订阅专栏

多模态与缺失模态

32 篇文章

订阅专栏

Cao B, Bi Z, Hu Q, et al. AutoEncoder-Driven Multimodal Collaborative Learning for Medical Image Synthesis[J]. International Journal of Computer Vision, 2023: 1-20.【开源】

本文的核心观点是关于一种名为AE-GAN（AutoEncoder-Driven Generative Adversarial Network）的新型深度学习模型，它专注于医学图像合成的应用。以下是其主要内容和创新点的总结：

本文提出了一种名为AE-GAN（AutoEncoder-Driven Generative Adversarial Network）的模型，用于医学图像的跨模态转换。这个模型结合了自编码器（AutoEncoder）和生成对抗网络（GAN）的特点，旨在提高医学图像合成的质量，特别是在单模态图像到图像的转换中。

文章动机

1.尽管之前基于GAN的图像翻译方法已经显著提高了合成结果的质量，但它们通常会产生扭曲和/或模糊的细节。一个根本的原因是，大多数这些方法都很难对生成模型(包括生成器和鉴别器)提供足够的监督。对于生成器来说，目前的大多数方法都采用像素级生成约束来最小化生成图像与GroundTruth的之间的平均距离，忽略了更有效、更直接的特征级监督。

2.鉴别器作为一个分类网络，向生成器提供真假鉴别信号，从而使语义表示产生偏差，并不能保持对生成图像中像素级变化的敏感性。这通常会导致像素或体素失真。

这是首次引入自动编码器来完全驱动多模态医学图像合成生成器的工作。

文章思想概述

自编码器（AutoEncoder）的应用： 自编码器是一种能够学习数据高效表示的神经网络。在AE-GAN中，自编码器用于学习目标模态（如CT图像）的特征表示。这有助于模型更好地理解和模拟目标模态的特性，从而在生成过程中产生更准确的图像。
生成对抗网络（GAN）的结合： GAN由一个生成器和一个判别器组成，生成器负责生成图像，判别器负责区分真实图像和生成图像。在AE-GAN中，生成器负责将一种模态（如MRI图像）转换为另一种模态（如CT图像），而判别器则评估生成的图像与真实目标模态图像之间的相似度。
多模态协作学习： AE-GAN利用多模态输入，例如结合MRI的不同序列（如T1, T2, FLAIR等），来提高合成图像的质量。这种方法允许模型从多个源中提取信息，从而生成更准确和详细的图像。
自表示损失（Self-Representation Loss）： 这是AE-GAN的一个关键特性，它帮助模型在生成过程中保持与目标模态的一致性。通过将自编码器学习到的目标模态特征与生成图像的特征进行比较，模型能够生成更接近目标模态的图像。
自编码器驱动的判别器： 在AE-GAN中，判别器不仅评估图像的真实性，还评估图像是否保持了目标模态的特征。这增强了模型对细节的敏感性，有助于生成更高质量的图像。
实验和评估： 文中通过在不同的医学图像数据集上进行实验，展示了AE-GAN在图像质量、模态转换准确性和细节保留方面的优势。使用了常见的评估指标，如峰值信噪比（PSNR）、结构相似性指数（SSIM）和特征相似性指数（FSIM），来量化模型的性能。

网络结构

生成网络

多个编码器对应你多个模态输入进行特征抽取，然后拼接特征输入生成器进行缺失模态生成
自编码器网络

使用与合成网络相同的网络结构，除了将多个输入分支合并成一个单一的网络。判别器判别ground-truth图像 $y$ 和合成器合成的 $\hat{y}$ 。
Modality Mask Vector

独热编码，指示缺失模态
损失函数
- Self-Representation Loss：在自动编码器网络中引入 $Generator_1$ $A_G$ 的表示，以在特征级上指导 $Generator_2$ $S_G$ 在合成网络中的应用。使用KL散度： $\mathcal{L}_{m_{1}}^{S R}=\lambda \cdot \sum_{i}^{n} K L\left(f_{\mathcal{A}_{G}}^{i ; m_{1}} \| f_{\mathcal{S}_{G}}^{i ; m_{2}, m_{3}, m_{4}}\right)$
- Autoencoder-based Discriminative Loss:鉴别器学习从像素和语义两个层面区分生成的图像和真实的图像。然而，目前的鉴别器往往将这种对抗性学习视为分类任务，忽略了像素级的约束。在此，将autoencoder $A_E$ 的编码器作为鉴别器 $D$ ，使鉴别损失对生成的图像的像素变化更敏感。
  
  $\begin{aligned} \mathcal{L}^{A D}\left(y, \hat{y}, y^{\prime}\right)= & \mathbb{E}_{y \sim P_{y}}[\log (D(y))] \\ & +\mathbb{E}_{\hat{y} \sim P_{\hat{y}}}[\log (1-D(\hat{y}))] \\ & +\mathbb{E}_{y^{\prime} \sim P},\left[\log \left(1-D\left(y^{\prime}\right)\right)\right] \end{aligned}$
- Multimodal Generative Loss:生成损失是四种不同输入组合的和，文中假设完整模态是4个。

训练和测试

自编码器在训练阶段提供全面的监督，包括生成约束和区别约束。请注意，该文的结构省略了通常在传统GAN模型中使用的鉴别器，并将其替换为自动编码器网络。

在训练阶段，合成网络的多分支编码器将输入图像转换成一个共同的潜在特征空间。然后将输入图像编码的多模态特征串接以提取其互补信息，以便通过生成器生成图像。自动编码器网络在每次迭代中单独由目标模态的图像进行训练，并用 $Generator_1$ 驱动合成网络中 $Generator_2$ 的优化方向。在测试阶段，去掉了自动编码器，只使用合成网络融合多模态源图像并生成目标图像。该方法可以估计缺失数据的任何输入组合成像模式使用一个单一的，统一的模型。