目录
HCS(Hierarchy Category System)
入门
这是我第一次写有关论文阅读的文章,所以首先介绍一下:读论文需要准备什么
论文查找渠道
要看好文章的基本信息(年份,期刊,摘要.....),挑选好合适的文章,有开源代码就更好了
期刊 or 会议的官网
谷歌学术 or 百度学术 or 中国知网
开源平台(arxiv 或 openreview...)
代码+论文:paperswithcod
浏览器直接搜......
阅读软件
read paper
小绿鲸
知云.......
通用文章架构
- Abstract 摘要 ——简介创新点、效果
- Introduction 引言——背景、意义、发展历程、提出问题
- Related Work 相关工作——重点看缺点
- Methods——论文主要方法,网络模型介绍
- Experiment——步骤及结果分析,实验训练测试,数据集,评价指标
- Discussion——结论和未来研究方向
接下来,正式开始看文章,这些是对于一个文章来说比较重要的(摘要、模型结构图、方法、实验、代码)需要着重看
论文介绍
题目:PCNet: Prior Category Network for CT Universal Segmentation Model
期刊:TMI
日期:2024
文章概述
文章提出了:先验类别网络 PCNet 和 基于 CLIP 的类别提示
- 先验类别网络 (PCNet),通过利用不同类别解剖结构之间的先验知识来提高分割性能
- 可以处理各种医疗分割任务的单一模型(包括不同的分割目标,如器官、血管和骨骼)
- PCNet由三部分组成:先验类别提示 (PCP)、层次类别系统 (HCS)、层次类别损失 (HCL)
- CLIP提供了一个统一的标签空间
- CLIP中的文本编码器将自由文本转换为嵌入,这些嵌入可以作为指导分割模型输出的提示
数据集
- TotalSeg数据集:1204张图像,104个独特的解剖结构
- 训练:1081 个,验证:57 个,测试: 65 个
- 所有图像都重新采样到1.5 × 1.5 × 1.5mm3各向同性分辨率
- CT扫描裁剪为96 × 96 × 96的输入
训练参数
- 优化策略:Nesterov动量为0.99的SGD优化器,权值衰减为3e-5
- 批大小为8,每个epoch包含1000次迭代
- 初始学习率为 0.01,并遵循聚学习率策略衰减:(1−epoch/1000)0.9
- 硬件:80GB VRAM 的 NVIDIA A800 GPU
模型评价
- 评价指标: Dice Similarity Coefficient (DSC) :分割性能指标。分数越高,分割越准确
- 评价数据:12个下游数据集,它们中可用的所有注释数据都用于测试模型的可迁移性
从这张表我们观察,蓝框到绿框指标的提升,说明了集成文本的重要性,绿到红说明了合并先验类别知识的重要性
对比实验与实验结果
将 PCNet 与其他具有相同主干但配置不同的模型进行比较
例如,UNet 作为主干时,将 UNet + PCNet 和 CDUM UNet 进行了统计比较
结果如下图所示,
这张图表示了在不同的数据集,不同的模型下的Dice得分(DSC),其中Dice得分后有***的,代表是我们的方法
只看彩色框住的部分,可以得出:
同样是 TotalSeg all ,与 CDUM UNet 相比,PC 的 UNet 从 83.96 增加到 87.23,可见提升
消融实验
- 通过增加和删除PCP、HCS 、HCL、注意力机制或以随机方式创建 100 个新类别,来证明文中提出的三个模块的重要性
- 同时,为了证明文本提示的重要性,还通过改变文字描述等方式,设计了消融研究,确保先验知识的准确性在PCNet框架中至关重要
- 同时,评估了各种 CLIP 主干,将clip与 ViT-B [50]、ViT-L [50]、ResNet101 [51] 和 ResNext50×64 [52]主干相结合,最优配置是PCNet-SwinUNETR 与 CLIP-ResNet101
此处以第一点为例,即说明三个模块的重要性
- 红色框:文本特征与先验知识在 PCP 中的重要性
- 蓝色框 :“Small、Base 和 Large”中实现了最高的平均 DSC,合并更多层次类别的重要性
- 黄色框:HCL 可以成功地引导模型捕获 HCS 中的先验知识
结论
PCNet 框架来改进通用模型在医学 CT 图像上的分割,特别是对于处理具有大量器官/组织的复杂任务
三个核心组件(PCP、HCS 和 HCL)利用 CLIP 和临床医生提示来有效地建立解剖关系
将我们的方法与一系列分割模型相结合可以显着提高它们的性能(即插即用)
基于 PCNet 的模型在多个下游数据集上也表现很好,且无需进行微调
Methods方法
这里,把文章的方法拿出来单独讲解
概述
想要具体了解一个文章的方法,看图和代码是最直观的,我们先看图
- 图片左上角的“categories statistics”分类统计中,一共137个类别,其中Basic Categories,Specific Organs,Anatomical Structures,Functional Systems就是HSC中区分的四个层,顺着箭头方向,接下来到了PCP模块,在这里将上一步学到的知识变成文本嵌入,通过text encoder处理。
- 与此同时,图片中间的CT image,通过标准化处理,变成了96*96*96的大小,再通过特征提取器,提取成为特征f,通过全局平均池化层处理, f ' 与text encoder后的结果融合,一同进入多层感知部分
- 继续上一步的操作,此时生成了参数θ,经过卷积,注意力机制(使用PCP图作为注意力图),然后将得到的特征传递到分割器,生成最终预测。最终,黄色区域HCL
这三个模块的主要作用如下:
PCP 蓝色区域:
将先前的医学知识集成到类别提示中,为 PCP 图创建嵌入,并通过注意力机制与图像特征相结合。
HCS 橙色区域:
分层扩展这些类别,形成一个与基本类别相关的 HCS 图。
HCL 黄色区域:
通过HCS图,引导参数梯度有效地捕获这种分层信息,即明确引导模型捕获类别之间的先验关系
PCP(Prior Category Prompt)
概括
目的:识别特定的器官并提供 有关其解剖结构 和 与其他类别的关系 的附加信息
文本分支:为每个器官生成 CLIP 嵌入。通过clip,学习医学术语,识别器官结构,将学到的文本嵌入模型中(标签嵌入)
图像分割:包含两部分,提取器和分割器
处理后,包含137 个类别(文本提示),主要从如下角度来考虑:
- 文字描述的清晰度,长度
- 描述器官的相对位置和相邻结构
流程
1. 提取特征:
x:数据集 的 CT 扫描,E:分割主干模型的提取器,特征图 f
2. 全局平均池化:
特征图 f :D×W×H×Z 变为 全局特征 f ' :D×1×1×1, D:特征数量
3. text encoder:
ei :CLIP 的预训练文本编码器生成的第 i 个类别的 PCP 的 CLIP 嵌入
4. 多层感知机:
生成参数θi :D×1×1×1 (137个θ,同137个类别),此过程将文本语义和图像信息融合
5. 卷积:
利用 θ 的卷积操作来控制视觉特征 f ,f '' :137×W ×H×S
6. PCP 图:
PCP 图 G :137×137,第j列和第i行的元素:第i和第j类的提示嵌入之间的余弦相似度,指导模型捕获不同类别之间的相似性
7. 注意力:
特征 f '' 与 PCP 图 G 相结合,G 用作注意力图,得到 p :模型的预测