论文信息
题目:DINO-Reg: General Purpose Image Encoder for Training-free Multi-modal Deformable Medical Image Registration
DINO-Reg:无需训练的多模态可变形医学图像配准的通用图像编码器
论文创新点
-
自监督学习模型的应用:作者首次探索了利用完全在自然图像上训练的自监督学习模型DINOv2,用于医学图像配准中的特征提取任务,无需针对医学图像进行微调。
-
无需训练的框架设计:提出了一个特别设计的无需训练的框架,充分利用DINOv2特征的全部能力,以实现精确的3D可变形医学图像配准。
-
跨模态配准性能:在多个真实世界的公共医学图像数据集上进行了广泛的实验,验证了所提出框架的性能,并在多模态配准中展现出卓越的能力,突出了其广泛的临床应用的准备情况。
摘要
现有的医学图像配准算法依赖于特定数据集的训练或基于局部纹理的特征来对齐图像。前者没有大量模态特定的训练数据集就无法可靠实施,而后者缺乏全局语义,因此容易陷入局部最小值。在本文中,我们提出了一种无需训练的可变形图像配准方法,DINO-Reg,利用通用图像编码器进行图像特征提取。DINOv2编码器是使用包含自然图像的ImageNet数据训练的,但编码器捕获语义信息的能力是可泛化到未见过的领域的。我们提出了一种基于DINOv2编码器的训练无关的深度学习基础的可变形医学图像配准框架。有了这些语义丰富的特征,我们的方法可以通过简单的特征配对和传统的梯度下降优化实现精确的粗到细配准。我们进行了一系列实验,以了解这种通用图像编码器在图像配准应用中的行为和作用。我们的方法在多个配准数据集中显示出最先进的性能。据我们所知,这是通用视觉基础模型在医学图像配准中的首次应用。
关键字
可变形配准 · 基础模型 · 图像特征
2 方法
所提出的DINO-Reg的整体框架如图1所示。在以下各节中,我们首先介绍DINOv2模型,以及我们如何使用这个2D模型进行3D体积特征编码,然后解释刚性和可变形配准框架。
2.1 DINOv2编码器
DINOv2(解释为自监督学习无标签,第二版)[3,19]是一个最先进的自监督学习框架,构成了我们方法的基石。它利用自蒸馏的原则,以自监督的方式从未标记的图像中学习知识。具体来说,DINOv2有一个双网络架构,包括一个教师网络和一个学生网络。两个网络共享相同的网络架构(通常建立在视觉变换器(ViTs)[5]上),但以不同的方式进行训练。给定一个输入图像,学生和教师网络被输入图像的不同增强版本,同时被限制提取一致的特征。在训练阶段,学生网络的参数通过梯度下降算法(如随机梯度下降(SGD)和Adam[15])进行优化,而教师网络的参数则通过学生网络中对应参数的移动平均值进行更新。训练好的教师网络通常用作最终产品。这样的通用基础模型可以作为下游任务的强大特征提取器,如分类和分割。DINOv2模型在包含1.3M未标记2D自然图像的ImageNet[4]数据集上进行预训练。网络使用ViT-L/14架构,编码维度为1024。每个输入图像首先被分割成14×14(×3通道)像素的补丁,外加一个cls标记,用于捕获全局语义,然后通过ViT网络编码1024-D特征向量。每个补丁特征向量包含原始14×14像素补丁在整个图像上下文中的语义。cls标记通常用于分类任务,因为它能够表示整个图像的全局语义。在我们的研究中,我们使用预训练的DINOv2模型的教师网络,从移动和参考图像中提取鲁棒和区分性的1024-D特征。
2.2 体积特征编码
要使用2D DINOv2编码器对3D医学图像进行编码,我们选择三个正交视图(即轴向、冠状和矢状视图)中的一个,并编码该视图中的所有切片。轴向视图在大多数模态中显示出最佳的分辨率和空间一致性,因此是我们的默认选择。DINOv2输入补丁的形状固定在14×14,这意味着每14×14像素被编码为一个补丁特征向量。这种分辨率上的池化将显著限制图像配准的精度。因此,我们通过s倍上采样输入图像以获得更细分辨率的特征。缩放的输入图像用Iref_s和Imov_s表示。在本文中,我们选择s=5.3由于GPU内存限制(39GB)。每个2D切片将被编码为一个3D特征图,第三维是特征维度。堆叠所有切片的3D特征图就得到了整个体积的4D特征图。在获得两个4D特征图后,我们对所有特征标记进行主成分分析(PCA),以(1)降低特征维度(2)将移动和参考图像特征对齐到相同的特征空间。主成分旨在捕获原始特征的方差。为了使结果特征对医学图像配准有意义,主成分必须描述解剖结构之间的差异,如器官和骨骼。如果不进行处理,大部分方差将发生在前景和背景内容之间。因此,我们对原始图像强度进行阈值处理,以获得前景补丁特征。PCAmask表示在前景组件上进行PCA。设期望的特征长度为k,则该过程表示为
其中k=24在此项目中。由于编码图像体积中的每个切片的时间成本很高,我们只编码每三个切片,并在中间插值特征图。为了进一步加快处理速度,我们将完整的PCA替换为低秩PCA[7],这大大减少了运行时间,结果几乎相同。
2.3 基于分类标记特征的切片匹配刚性配准
将可变形配准问题分解为粗到细的步骤是提高配准质量和平滑度的常用方法[6,18,21]。我们工作中包含的腹部MR-CT数据集具有较大的初始错位(初始DICE=0.376)。在某些情况下,相应器官根本不重叠,这对像梯度下降这样的迭代优化算法构成了挑战。因此,我们的框架首先基于DINOv2编码的每个切片的cls标记特征进行粗略的刚性配准。与补丁标记一起编码的cls标记捕获了每个编码切片的全局信息。我们还对cls特征进行PCA,以将移动和参考图像的cls特征对齐到相同的特征空间。设Cref和Cmov分别代表两组cls标记,每组都有n个编码切片。我们首先计算两组之间的所有可能的切片对之间的距离,得到一个n×n的距离矩阵。然后我们分离出配对特征距离最低的10对特征向量,并计算它们的切片索引之间的平均差异。通过这个过程,我们使用cls标记执行跨模态切片匹配,从而得到粗略的刚性配准。然后平均距离被转换成全局刚性位移场ϕglobal。
2.4 基于补丁标记特征的梯度下降优化
利用DINOv2生成的语义丰富的补丁特征有效地缓解了与模态差异相关的担忧。因此,对齐模态独立的特体积解决了原始图像的多模态配准问题。我们使用ADAM梯度下降优化器对齐两个特征体积,既促进了稳定性,也保持了固有的可解释性。设Zref、Zmov代表特征体积,ϕ代表位移场,整体优化目标函数写为
其中||∇ϕ||^2_2是惩罚非平滑变形的正则化项,λ是正则化权重,ϕ从ϕglobal开始初始化。对于相似性度量Sim(·, ·),我们使用SSD(平方距离和)或LCC(局部交叉相关性)。对于大多数数据集,DINOv2特征是跨模态可泛化的,因此SSD是最优解决方案。然而,对于OncoReg挑战数据集中的参考CBCT图像含有大量噪声,我们发现LCC更合适。
3 实验和结果
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。