医图论文 NIPS‘24 | 一对多：用于医学图像分割的渐进风格迁移无监督域适应框架

小天才学习机打游戏

于 2025-01-02 20:24:42 发布

阅读量1k

点赞数 19

文章标签：人工智能计算机视觉语言模型学习大数据运维

本文链接：https://blog.csdn.net/m0_59164520/article/details/144894235

版权

论文信息

题目：One-to-Multiple: A Progressive Style Transfer Unsupervised Domain-Adaptive Framework for Kidney Tumor Segmentation

一对多：一种渐进风格迁移无监督域适应框架用于肾脏肿瘤分割

论文创新点

一对多渐进风格迁移无监督域适应框架：作者提出了一种新颖的一对多渐进风格迁移无监督域适应（PSTUDA）框架，能够同时将单个标注的源域迁移到多个未标注的目标域，显著减少了每个目标域的繁琐域适应工作。
多层次风格字典：作者引入了一个多层次风格字典，在风格迁移的不同阶段存储每个域的风格信息，从而减轻了生成器执行多个任务的负担，并有效解耦了内容特征和风格特征。这一创新使得生成器能够专注于捕捉域不变特征，如结构和形状。
渐进风格迁移范式和逐点实例归一化（PIN）：作者提出了一种渐进风格迁移范式，通过多个级联风格融合模块，逐步重新组合内容特征和相应的风格特征。同时，作者引入了**逐点实例归一化（PIN）**方法，实现了更细微和准确的像素级风格迁移。

摘要

在多序列磁共振成像（MRI）中，基于传统监督方法对肾脏和肿瘤进行准确分割通常需要对每个序列进行详细标注，这既耗时又费力。无监督域适应（UDA）方法可以通过对跨模态特征进行对齐来有效缓解域间差异，从而减轻标注负担。然而，大多数现有的UDA方法局限于一对一域适应，这在面对多目标域迁移任务时往往效率低下且资源消耗大。为了解决这一挑战，作者提出了一种新颖且高效的一对多渐进风格迁移无监督域适应（PSTUDA）框架，用于多序列MRI中的肾脏和肿瘤分割。具体来说，作者开发了一个多层次风格字典，在不同阶段显式存储每个目标域的风格信息，从而减轻了单一生成器在多目标迁移任务中的负担，并实现了内容和风格的有效解耦。同时，作者采用了多个级联风格融合模块，利用逐点实例归一化逐步重新组合内容和风格特征，从而增强了跨模态对齐和结构一致性。在私有MSKT和公开KiTS19数据集上的实验表明，所提出的PSTUDA在多序列肾脏和肿瘤分割方面优于比较方法。平均Dice相似系数分别提高了至少1.8%和3.9%。值得注意的是，PSTUDA不仅显著减少了浮点计算量约72%，还将模型参数数量减少了约50%，为实际临床应用带来了更高的效率和可行性。

3 方法

提出的One-to-Multiple框架概述

形式上，对于一对多域适应任务，作者有一个源域和多个目标域。源域是标注的，表示为，而目标域是未标注的，表示为。每个域被分配一个域标签，例如，表示源域0，目标域1，…，直到目标域。图1展示了作者的PSTUDA框架，主要由共享生成器（包括编码器、解码器和多个风格融合模块）和多尺度判别器组成。、和分别表示源域的输入图像、与输入图像对应的生成伪目标域图像以及从伪目标域图像重建回源域的图像。作者的任务涉及两个阶段。第一阶段的目标是训练一个生成器，使得给定源域图像和任何目标域标签，它可以生成与图像对应的伪目标域图像，即。第二阶段的目标是利用生成的伪目标域图像和源域标注来训练分割网络，以实现肾脏和肿瘤的准确分割。

渐进风格迁移范式

在PSTUDA中，多个级联风格融合模块和解码器构成了渐进风格迁移的核心组件。图1(b)展示了第一阶段和最后阶段（解码阶段）风格迁移的主要过程，中间阶段的风格迁移过程类似。在第一阶段风格迁移中，风格融合模块需要两个输入：通过编码器下采样获得的内容特征，以及来自目标域的第一层次风格编码，与当前风格融合模块匹配。作者利用域标签乘以第一风格字典来选择目标风格编码。首先，内容特征通过卷积层获得内容特征，目标风格编码经过两个连续的卷积进行通道转换，获得风格特征。

在获得内容特征和风格特征后，作者提出了一种新的风格融合归一化方法，称为逐点实例归一化（PIN），以更细微和准确地进行像素级风格迁移。

在风格迁移的最后阶段，解码器将来自前一层的风格化内容特征和最后一层次风格编码作为输入。为了与内容特征在空间上匹配，风格编码首先通过反卷积层进行上采样以进行尺度转换，然后通过两个连续的卷积进行通道转换，得到风格特征。其他风格融合操作与第一阶段类似。在解码阶段进行风格迁移有两个考虑。首先，解码阶段是图像重建的过程，集成风格特征可以有效将目标域的高层次风格信息融入图像中。这有助于更好地表达目标风格，同时保留内容信息，特别是在细节和纹理方面。其次，由于解码器负责上采样，它有机会在放大特征图的同时精炼和恢复图像细节。在解码阶段引入风格迁移，确保这些细节不仅符合内容结构，还与目标风格的特点相匹配，从而在不同尺度上实现内容和风格的有效融合。

生成器和判别器架构

生成器 如前所述，生成的伪目标域图像将与源域的相应分割标注一起用于训练后续的分割网络。因此，在图像翻译过程中保持结构一致性对于下游应用的成功至关重要。StarGAN v2中的生成器由于其多次下采样步骤，不幸导致了空间信息的丢失，这在图像翻译过程中保持结构一致性方面提出了挑战。鉴于CycleGAN在一对一医学图像翻译中的出色表现，作者采用了OMUDA的方法，将CycleGAN的生成器架构集成到作者的编码器和解码器中。为了使单个生成器能够处理一对多迁移任务，作者将解码器中的IN层替换为PIN层。完整的生成器由编码器、解码器和一系列级联风格融合模块组成。其中，编码器配备了两个下采样层和多个IN层，负责从源域输入图像中提取域不变特征。级联风格融合模块负责将目标域的风格特征与源域的域不变特征进行集成。解码器由两个上采样层嵌入PIN组成，负责在解码阶段进行风格迁移和图像重建。

判别器 受Wang等人的工作启发，作者在StarGAN v2的原始判别器架构中加入了多尺度机制。如图2所示，判别器由多个独立的判别分支组成，每个分支包含四个残差块，每个残差块有个输出分支，服务于个特定的目标域。判别器的输入不仅包括原始图像，还包括通过不同尺度下采样处理的图像。判别器的多分支输出首先与目标域标签相乘，以选择相应域的判别输出，然后进行真实性判断。通过在不同尺度上评估生成的图像，多尺度判别器可以更全面地判断图像的真实性，从而鼓励生成器生成更高质量的图像。

4 实验

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述