【论文阅读】PCNet: Prior Category Network for CT Universal Segmentation Model 详细解读

正在努力的鼠鼠

已于 2024-10-09 20:01:20 修改

阅读量1.1k

点赞数 26

文章标签：论文阅读

于 2024-09-25 20:37:19 首次发布

本文链接：https://blog.csdn.net/qq_52589927/article/details/141133605

版权

PCP（Prior Category Prompt）

概括

流程

HCS（Hierarchy Category System）

概括

HCL（Hierarchy Category Loss）

代码解读

入门

这是我第一次写有关论文阅读的文章，所以首先介绍一下：读论文需要准备什么

论文查找渠道

要看好文章的基本信息（年份，期刊，摘要.....），挑选好合适的文章，有开源代码就更好了

期刊 or 会议的官网

谷歌学术 or 百度学术 or 中国知网

开源平台（arxiv 或 openreview...）

代码+论文：paperswithcod

浏览器直接搜......

阅读软件

read paper

小绿鲸

知云.......

通用文章架构

Abstract 摘要 ——简介创新点、效果

Introduction 引言——背景、意义、发展历程、提出问题

Related Work 相关工作——重点看缺点

Methods——论文主要方法，网络模型介绍

Experiment——步骤及结果分析，实验训练测试，数据集，评价指标

Discussion——结论和未来研究方向

接下来，正式开始看文章，这些是对于一个文章来说比较重要的（摘要、模型结构图、方法、实验、代码）需要着重看

论文介绍

题目：PCNet: Prior Category Network for CT Universal Segmentation Model

期刊：TMI

日期：2024

论文链接：PCNet: Prior Category Network for CT Universal Segmentation Model | IEEE Journals & Magazine | IEEE Xplore

代码链接：GitHub - YixinChen-AI/PCNet

文章概述

文章提出了：先验类别网络 PCNet 和 基于 CLIP 的类别提示

先验类别网络 (PCNet)，通过利用不同类别解剖结构之间的先验知识来提高分割性能

可以处理各种医疗分割任务的单一模型（包括不同的分割目标，如器官、血管和骨骼）

PCNet由三部分组成：先验类别提示 (PCP)、层次类别系统 (HCS)、层次类别损失 (HCL)

CLIP提供了一个统一的标签空间

CLIP中的文本编码器将自由文本转换为嵌入，这些嵌入可以作为指导分割模型输出的提示

数据集

TotalSeg数据集：1204张图像，104个独特的解剖结构

训练：1081 个，验证：57 个，测试： 65 个

所有图像都重新采样到1.5 × 1.5 × 1.5mm3各向同性分辨率

CT扫描裁剪为96 × 96 × 96的输入

训练参数

优化策略：Nesterov动量为0.99的SGD优化器，权值衰减为3e-5

批大小为8，每个epoch包含1000次迭代

初始学习率为 0.01，并遵循聚学习率策略衰减：(1−epoch/1000)0.9

硬件：80GB VRAM 的 NVIDIA A800 GPU

模型评价

评价指标： Dice Similarity Coefficient (DSC) ：分割性能指标。分数越高，分割越准确

评价数据：12个下游数据集，它们中可用的所有注释数据都用于测试模型的可迁移性

从这张表我们观察，蓝框到绿框指标的提升，说明了集成文本的重要性，绿到红说明了合并先验类别知识的重要性

对比实验与实验结果

将 PCNet 与其他具有相同主干但配置不同的模型进行比较

例如，UNet 作为主干时，将 UNet + PCNet 和 CDUM UNet 进行了统计比较

结果如下图所示，

这张图表示了在不同的数据集，不同的模型下的Dice得分（DSC），其中Dice得分后有***的，代表是我们的方法

只看彩色框住的部分，可以得出：

同样是 TotalSeg all ，与 CDUM UNet 相比，PC 的 UNet 从 83.96 增加到 87.23，可见提升

消融实验

通过增加和删除PCP、HCS 、HCL、注意力机制或以随机方式创建 100 个新类别，来证明文中提出的三个模块的重要性

同时，为了证明文本提示的重要性，还通过改变文字描述等方式，设计了消融研究，确保先验知识的准确性在PCNet框架中至关重要

同时，评估了各种 CLIP 主干，将clip与 ViT-B [50]、ViT-L [50]、ResNet101 [51] 和 ResNext50×64 [52]主干相结合，最优配置是PCNet-SwinUNETR 与 CLIP-ResNet101

此处以第一点为例，即说明三个模块的重要性

红色框：文本特征与先验知识在 PCP 中的重要性

蓝色框：“Small、Base 和 Large”中实现了最高的平均 DSC，合并更多层次类别的重要性

黄色框：HCL 可以成功地引导模型捕获 HCS 中的先验知识

结论

PCNet 框架来改进通用模型在医学 CT 图像上的分割，特别是对于处理具有大量器官/组织的复杂任务

三个核心组件（PCP、HCS 和 HCL）利用 CLIP 和临床医生提示来有效地建立解剖关系

将我们的方法与一系列分割模型相结合可以显着提高它们的性能（即插即用）

基于 PCNet 的模型在多个下游数据集上也表现很好，且无需进行微调

Methods方法

这里，把文章的方法拿出来单独讲解

概述

想要具体了解一个文章的方法，看图和代码是最直观的，我们先看图

图片左上角的“categories statistics”分类统计中，一共137个类别，其中Basic Categories，Specific Organs，Anatomical Structures，Functional Systems就是HSC中区分的四个层，顺着箭头方向，接下来到了PCP模块，在这里将上一步学到的知识变成文本嵌入，通过text encoder处理。
与此同时，图片中间的CT image，通过标准化处理，变成了96*96*96的大小，再通过特征提取器，提取成为特征f，通过全局平均池化层处理， f ' 与text encoder后的结果融合，一同进入多层感知部分
继续上一步的操作，此时生成了参数θ，经过卷积，注意力机制（使用PCP图作为注意力图），然后将得到的特征传递到分割器，生成最终预测。最终，黄色区域HCL

这三个模块的主要作用如下：

PCP 蓝色区域：

将先前的医学知识集成到类别提示中，为 PCP 图创建嵌入，并通过注意力机制与图像特征相结合。

HCS 橙色区域：

分层扩展这些类别，形成一个与基本类别相关的 HCS 图。

HCL 黄色区域：

通过HCS图，引导参数梯度有效地捕获这种分层信息，即明确引导模型捕获类别之间的先验关系

PCP（Prior Category Prompt）

概括

目的：识别特定的器官并提供有关其解剖结构和与其他类别的关系的附加信息

文本分支：为每个器官生成 CLIP 嵌入。通过clip，学习医学术语，识别器官结构，将学到的文本嵌入模型中（标签嵌入）

图像分割：包含两部分，提取器和分割器

处理后，包含137 个类别（文本提示），主要从如下角度来考虑：

文字描述的清晰度，长度

描述器官的相对位置和相邻结构

流程

1. 提取特征：

$f = E(x)$

x：数据集的 CT 扫描，E：分割主干模型的提取器，特征图 f

2. 全局平均池化：

特征图 f ：D×W×H×Z 变为全局特征 f ' ：D×1×1×1， D：特征数量

3. text encoder：

ei ：CLIP 的预训练文本编码器生成的第 i 个类别的 PCP 的 CLIP 嵌入

4. 多层感知机：

生成参数θi ：D×1×1×1 （137个θ，同137个类别），此过程将文本语义和图像信息融合

5. 卷积：

利用 θ 的卷积操作来控制视觉特征 f ，f '' ：137×W ×H×S

6. PCP 图：

PCP 图 G ：137×137，第j列和第i行的元素：第i和第j类的提示嵌入之间的余弦相似度，指导模型捕获不同类别之间的相似性

7. 注意力：

特征 f '' 与 PCP 图 G 相结合，G 用作注意力图，得到 p ：模型的预测

HCS（Hierarchy Category System&#

最低0.47元/天解锁文章