医图分割_半监督_左心房3D MRI_MICCAI2020 Local and Global Structure-Aware Entropy Regularized Mean Teacher


(医学图像分割)(半监督)(左心房 3D MRI)(MICCAI 2020)
南京工业大学 南京大学 (港中文 lequan yu 四作)
code:https://github.com/3DMRIs/LG-ER-MT 没给训练代码,但这篇文章训练代码才是关键

Abstract

  • 抛出问题:consistency只penalize了独立的像素级预测,使得预测的结构级信息structure-level information在学习过程中没有被利用。
  • 我们提出了structure-aware entropy regularized mean teacher model 来解决上述局限性
  • 对 student model 使用 entropy minimization principle -》对无标签样本产生 high-confident predictions
  • 我们设计了 local structural consistency loss 来鼓励 T model 和S model 的输出的 同一个局部区域内的 consistency of inter-voxel similarities
  • 在S model 和 T model 之间匹配 weighted self-information maps -》 施加 global structural consistency -》进一步捕获了local structural
    dependencies

基于上面的工作,我们的模型可以最小化未注释图像的预测不确定性,更重要的是它可以捕获局部和全局的结构信息及其互补性。

introduction

先介绍了一些相关工作,如 MICCAI2019 Lequan YU 的那个UA-MT,然后作者抛出这些方法的缺点:

  • 这些方法只是聚焦于 pixel-level consistency,忽略了 underlying structural information(解释这点时引用了一篇2018年CVPR,Learning to Adapt Structured Output Space for Semantic Segmentation,可以回头去看下)

由这个缺点引出了学习structural relationship的方法,而关于结构信息的方法作者引了两篇文章

  • Structured knowledge distillation for semantic segmentation. CVPR 2019
  • Structured Knowledge Distillation for Dense Prediction, PAMI2020
    这两篇都可以看一下。以及以后找图像分割的论文,记得 Dense Prediction 也是可以搜索的字段。

Boundary and entropy-driven adversarial learning for fundus image segmentation,这篇2019MICCAI 利用预测熵图获取目标边界信息,进行像素级图像分割。

然而这些structural relationship的方法没有充分利用 空间 和 几何结构信息 之间的互补性。

我们提出了:local and global structure-aware entropy regularized mean teacher (LG-ER-MT)
baseline上还是继承了MT模型的特点:不同的扰动,尽量一致的输出
还有以下几点贡献:

  • 使用entropy regularized mean teacher (ER-MT) 来惩罚无标签样本的 voxel-level prediction uncertainty
  • 从prediction中随机选取 small volumes(类似于patch吧) -》在small volumes中计算 inter-voxel similarities -》 获得local spatial structural information,进一步挖掘 structure-level information
  • 利用加权weighted self-information 来获得global geometric structure information。(作者在这里说,weighted self-information 例如是 disentanglement of Shannon Entropy,并引用了一篇ICCV2019:DADA: depth-aware domain adaptation in semantic segmentation)
  • 我们同时在MT模型中引入local 和 global structure information,从而完成互补。

method

在这里插入图片描述

Entropy Regularized Mean Teacher (ER-MT)

在S model 上对无标注样本 使用 LE:
在这里插入图片描述
log|c|没看懂,log|c|是啥?c是类别?但c取0怎么办,0不在log的定义域啊,c取1,log1直接0了,分母也不能为0啊。信息熵是一个期望,确实每个类别都要算一下信息量,即-plogp,每个类别算一下这个再求和就是信息熵了。除U勉强理解,U是无标注样本数量,算是求个平均值吧,除log|c|真没看懂,有知道的朋友麻烦评论区说一下。
在这里插入图片描述
作者说LE让S mdoel对无标注样本分割的更准确了,从而最终提升MT模型的泛化能力。
想了下最小化LE的目的是什么。最小化-plogp,当p趋于0时,-plogp趋于0(尽管p趋于0时,logp趋于无穷,但p比logp更快,因此整体趋于0)。当p趋于1时,-plogp还是趋于0,因此感觉最小化LE,就是让预测的像素点里p偏向0的更接近0,p偏向1的更接近1,推动预测概率向0和1这两极走。作者前面是这么说的:

For image segmentation tasks, low-density regions are generally
distributed in the pixels of an object border [3]. Considering that
the entropy minimization principle can adjust the network passing
through the low-density regions to make high-confident predictions in
most situations [9], we introduce this principle to the student
network for the first time in order to achieve more accurate segmen
tation of unannotated images.

也就是说,最小化LE就是实现entropy minimization principle?从LE优化方向来看,确实是在make high-confident predictions(预测概率趋近于0和1了嘛),但是这样真的有效吗?为什么只在无标注样本上用?如果这种做法真的这么有效,怎么没见别人用过?这个损失函数的效果有待验证。

Local and Global Structure-Aware Entropy Regularized Mean Teacher Model (LG-ER-MT)

  • 抛出问题:mean teacher 模型把分割问题当成逐voxel的分类问题,并仍然采用在半监督分类问题中通常使用的那种原始的一致性损失
  • 但分割不同于通常的分类问题,它带有structure-level characteristics
  • 因此,我们开发local and global 的 structural consistencies, 联合学习 spatial and geometric structural information,从而提升MT模型的generalization capability

Local Structural Consistency Loss

  • 计算S和T的输出的每一对儿voxel的相似度,但计算量太大
  • 因此对于每个mini-batch内我们随机选取一部分local vol来计算 inter-voxel similarity。注意,local volume 是 sub-volumes 是取的小块,类似于三维的patch。

在这里插入图片描述
如上图,先分为小块,在随机选取小块,蓝色的是被选的。
在这里插入图片描述
这是Local Structural Consistency Loss。L,标签样本数。U,无标签样本数。R,样本总数。N,蓝块数量。Hn\Wn\Dn,蓝块维度。V,蓝块内像素点数。k\l,蓝块内就是V内的两点。in,某个蓝块。Pink,in块内k点的预测向量(分割,c个类别就是c维向量。假如前景背景二分类,就是2维向量)。Pinl,in块内l点的预测向量。ainkl,Pink向量和Pinl向量的余弦相似度(是蓝块内的两个点的计算)。asinkl是s model输出内的余弦相似度计算,atinkl是t model输出内的余弦相似度计算,两者相减算2范数平方,再求和算平均值,就是最终整个式子LL的值。
先在a内先算块内点的相似度,再在s和t的输出之间算相似度的一致性,是在算相似度的一致性,即:s的in内的k l之间相似度 和 t的in内的k l之间相似度 的一致性。
在这里插入图片描述
在这里插入图片描述

Global Structural Consistency Loss

在这里插入图片描述
Isiv : 是s mdoel 的 第i-th样本的输出的 第v-th个voxel的 加权自信息, weighted self-information,用 -psiv◦log psiv 计算,这不就是上面那个LE损失函数吗? “◦” 是 Hadamard product 哈达玛积,因为p是向量,计算如下图。R:样本总数。V,HWD,总像素数。LG是在计算MSE。查阅花书,关于MSE见下图。Is和It分别是S model 和 T model 的预测的加权自信息就是自己算信息熵,公式4等于是对 S和T的输出预测的信息熵施加一致性损失。
1
5.4 5.5 中的y是向量。先看5.4,向量y`和y相减,结果假设是(a,b,c).那么(a,b,c)^2=向量的模×向量的模×cosθ。θ是两个向量之间的夹角,同一个向量的夹角为0°,所以为|(a,b,c)|²。故向量的平方在数值上等于向量模的平方。|(a,b,c)|=根号下(a方+b方+c方)。而对于5.5,(a,b,c)的2范数=根号下(a方+b方+c方),一样的,只是两种写法。
在这里插入图片描述
总的损失如下:
在这里插入图片描述
剩下的实验部分、实现细节等不写了,有需要回头看。这篇论文有些东西还是没说清楚,比如那个LE损失函数,作者说是首次在S model的无标注样本分割上使用,因为作者引用了很多CVPR PAMI等论文,因此要想完全弄懂作者用的这些一致性损失,最好去把引用文献看一下。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值