论文信息
题目:SelfReg-UNet: Self-Regularized UNet for Medical Image Segmentation
SelfReg-UNet:用于医学图像分割的自正则化UNet
论文创新点
本文提出了一种自正则化UNet(SelfReg-UNet),用于改善医学图像分割任务的性能。其创新点主要包括以下三个方面:
-
不对称监督的识别与平衡:作者发现UNet中的编码器与解码器之间存在不对称的监督信号,这导致了从编码器到解码器的信息流中出现了语义丢失。为了解决这个问题,提出了一种**语义一致性正则化(Semantic Consistency Regularization, SCR)**机制,利用解码器中包含丰富语义信息的特征图来为编码器中的其他块提供额外的监督信号。
-
特征冗余的减少:通过实证分析,作者观察到在UNet的特征图中存在特征冗余,尤其是在深层特征中。为了减少这种冗余,提出了一种**内部特征蒸馏(Internal Feature Distillation, IFD)**方法,通过从浅层到深层的特征蒸馏来引导深层特征学习有用的上下文信息。
-
即插即用的集成方式:所提出的自正则化方法可以以插件方式轻松集成到现有的UNet架构中,无论是基于CNN的UNet还是基于ViT的UNet,都能够以最小的额外计算成本获得性能提升。
摘要
自从UNet被引入以来,它在各种医学图像分割任务中一直占据领导地位。尽管许多后续研究也致力于提高标准UNet的性能,但很少有研究深入分析UNet在医学图像分割中的潜在兴趣模式。在本文中,我们探索了UNet中学习到的模式,并观察到两个可能影响其性能的重要因素:(i)由不对称监督引起的无关特征学习;(ii)特征图中的特征冗余。为此,我们提出平衡编码器和解码器之间的监督,并减少UNet中的冗余信息。具体来说,我们使用包含最多语义信息的特征图(即解码器的最后一层)为其他块提供额外的监督,并通过利用特征蒸馏来减少特征冗余。所提出的方法可以以插件方式轻松集成到现有的UNet架构中,几乎不需要计算成本。实验结果表明,所提出的方法在四个医学图像分割数据集上一致性地提高了标准UNet的性能。
关键词
图像分割 · UNet · 可解释性分析
2 方法
2.1 UNet中学习到的特征分析
我们通过使用两种常用的技术来分析UNet中学习到的特征:(i)梯度加权类激活映射(GradCAM)[20];(ii)特征图中的相似性分析。UNet中的不对称监督。我们观察到图1(b)中的两个有趣的现象:(i)学习模式在编码器和解码器之间表现出不对称性。解码器可以大致定位一些真实分割区域,而编码器倾向于捕获无关信息(E3, E4),将模式的兴趣分散到边界。(ii)在解码器中,位于末端的块(D1)表现出对真实分割的准确理解。同时,块(D2,D4)学习了无关信息。主要原因在于每个块接收到的监督信号的强度不同。从直接受真实分割监督的输出投影回溯,监督信号逐渐减弱。这导致了语义丢失,一些块(例如,E1,E3,E4,B)在编码器中甚至激活了与分割无关的区域。UNet中冗余特征。实证调查显示,过度参数化的CNN/ViT模型倾向于学习冗余特征,导致视觉概念不佳[6,12,13]。以E1的输出为例,我们计算了浅层和深层级别的通道维度上的特征相似性矩阵。如图1©所示,我们在ViT/CNN基础UNets中观察到两个现象:(i)在深层中普遍存在特征冗余,高相似性矩阵表明跨通道学习了相似的特征。(ii)浅层表现出显著的多样性,低相似性矩阵证明了这一点。UNet中存在的过度参数化是这些现象的基础。结果冗余特征通常伴随着与任务无关的视觉特征,导致性能下降和不必要的计算开销。
2.2 解决方案
语义一致性正则化。已有各种研究提出通过使用知识蒸馏和特征对齐等策略来解决自然图像中语义丢失的问题,目标是利用准确的特征来指导那些信息量较少的特征[2,13,9,5,28]。受这些在自然图像中的工作的启发,我们提出使用包含最多语义信息的特征图(即,如观察到的D1)为UNet中的其余块提供额外的监督。因此,我们提出了一个通用范式,称为语义一致性正则化(SCR),以平衡编码器和解码器之间的监督。为了简单起见,我们使用特征蒸馏机制[2,13]来演示我们的想法,由于其普及性和简单性(作为一个均方误差损失);而其他知识蒸馏方法可以作为替代品(作为一个KL散度)。为此,我们定义了所提出的SCR为
其中是位于最后一个解码器块(D1)的特征图,是位于第i层的第m个块(E(1) 1 , E(2) 1 ,…, D(2) 3 ,D(1) 2 ,D(2) 2 )中除了D1的所有特征图。为了对齐通道和空间维度中的特征,我们采用了平均池化和随机通道选择操作(RSC),如图2.(a)所示。
值得注意的是,通道选择不引入额外的模块[9,5,28],减少了计算和语义冲突。L2范数被用作距离度量。内部特征蒸馏。为了解决特征冗余问题,一些通道收缩方法已被提出,与模型滤波修剪领域相关,利用Lp范数惩罚在通道显著性上引入稀疏先验[30,25,14]。受此启发,我们采用了Lp范数,从浅层(上半部分通道特征)到深层(下半部分通道)进行信息蒸馏,指导深层特征学习有用的上下文信息。可以表述为:
其中表示位于第i层的第m个块(E(1) 1 , E(2) 1 ,…, D(1) 2 ,D(2) 2 ,D(1) 1 )中的特征图,是深层通道特征,是浅层特征。如图2.(b)所示,我们将通道分为上半部分和下半部分,使用这种划分作为边界,确保了浅层和深层中特征数量的一致性。按照[13,25,30]的做法,我们采用了L2范数。与引入额外模块以减少冗余的方法[16,11]相比,LIFD简单且无需额外成本。目标函数。总损失是LSCR和LIFD的加权和,与标准的交叉熵和dice损失Lcd[24,8,1,19]结合使用,评估预测和真实分割结果之间的差异。
其中和是平衡参数。
3 实验和结果
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。