论文解读 | 标签质量感知的鲁棒联邦医学图像分割

点击蓝字

9ad7b1544be9e80afe8e5f7047f04f15.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

作者简介

吴南楠,华中科技大学二年级博士生

内容简介

由于其隐私保护特性,联邦学习(FL)已成为在分布式医疗数据上训练分割模型的一种有前途的范式。然而,现有研究忽略了现实世界医学数据集中遇到的普遍标注噪声,这限制了FL的性能上限。在本文中,我们首次识别和解决这个问题。对于问题定义,我们提出了一种轮廓演化模型,用于对每个客户端内像素之间的非独立同分布(Non-IID)噪声进行建模,然后将其扩展到多源数据的情况以形成异构噪声模型(即跨客户端的Non-IID标注噪声)。

为了从具有这种两级Non-IID噪声的标注中进行稳健的学习,我们强调数据质量在模型聚合中的重要性,允许高质量的客户端对FL有更大的影响。为此,我们通过引入基于客户端噪声估计的质量因子,提出了带有quAlity-awareAggregatIon的联邦学习,名为FedA3I。具体来说,每个客户端的噪声估计是通过高斯混合模型完成的,然后以分层的方式合并到模型聚合中,以提升高质量客户端的比重。在两个真实世界的医学图像分割数据集上的大量实验表明,FedA3I在处理跨客户端标注噪声方面优于最先进的方法。

论文链接:

https://arxiv.org/pdf/2312.12838.pdf

代码链接:

https://github.com/wnn2000/FedAAAI

论文内容

Background

在医学应用中,对病灶和器官的准确分割非常重要,因为这可以给医生提供关于目标的形状、体积等信息,有助于对疾病的进一步诊断。近几年的医学图像分割任务大多是通过深度学习来实现的,而这一方式最重要的特点是数据驱动。然而,医学数据的两大特点却会影响这一范式的性能上限,其一,医学图像是小规模的,它的采集依赖特定的设备和专业医生,绝对数量较小;其二,医学图像是非中心化的,不同机构采集的数据通常不能共享和融合,因为这涉及隐私伦理法律问题。

7053058a7c7e9312d456e1ae67f1e4c3.png

所以,在这样的场景中,如何训练出一个好的分割模型是非常值得探索的问题。由于联邦学习具有保护隐私的性质,基于联邦学习的医学图像分割已经成为解决这一问题的重要方式。联邦医学图像分割的每一轮训练通常由四个步骤组成:第一,由医院或机构下载分割的模型到本地;第二,在本地进行训练;第三,将训练好的分割模型上传到服务器;第四,在服务器上进行聚合,循环进行直至训练出一个比较好的分割模型。

623f3033b16974af0202afb5b382e5f5.png

作者发现:现有的关于联邦医学图像分割的研究,通常忽略了医学数据集的重要特点,即它的标注是带有噪声的。这主要有两个原因:首先,医学图像的标注是具有主观性的,由注释者的专业知识(偏好)决定,例如一线临床医生为防止遗漏阳性区域通常会将病灶区域标注的范围更大;其次标注的准确度与注释者的专注程度有关,可能会引入随机失真。

在监督学习中,标签是神经网络唯一的指导,错误的标签会带偏理想的优化过程,最终影响模型收敛的性能。在该背景下,本文关注一个科学问题:针对医学图像分割任务,如何在存在异质标注噪声的情况下进行鲁棒的联邦学习?

Problem Definition

  • 什么是annotation noise?

在图像分割中,我们通常考虑一个可用的图像-标注对,其中078e926b3535bf8ebc25fd0399ccf006.png代表图像,3464acb2fdcfd9431ee1de881961c168.png表示其下的噪声标注,表示噪声。在图像级别的标注中,我们会对逐个图片依次进行标注,从而为每个图像实例引入可能的噪声。所以,在像素级别的标注中,是不是每一个pixel中也都可能带有噪声?答案是否定的。在现实世界中,在像素级标注时,标注者并非逐像素标注,因为像素之间具有很强的空间信息,所以标注者通常是通过划定目标的边界来进行标注。由此可以看出,Annotation Noise的本质是有偏的轮廓,而非像素标注错误带来的。

7d4098df4c88f4026b8113e1e5408aff.png

  • Contour Evolution Model (CEM)

通过这种现实世界的启发,为了建模像素标注过程,作者提出了轮廓演化模型(CEM),即将干净的轮廓演化成新的轮廓,这就形成了新的噪声标注。具体过程如下:首先,选择一个像素作为起始点;采样,从f7cfc4705a9e16f95fad647b532e5ef4.png中随机采样一些值;多项式拟合:使用给定的多项式函数P(x)来获取每个像素在边界上的偏置bias sequence;根据偏差移动像素:根据所获得的偏差,将像素沿着边界移动一定的距离,最终形成新的轮廓; 

9f9e0354331c230ed7a33a5c9182bb1e.png

这种方法的优点是可以有效地、平滑地模拟复杂的轮廓变化。并且,对于bias sequence的统计量,如mean和std,可以很好地反映了偏见和随机性。

  • Property of Generated Noise

在文章中,作者还从理论上说明了本文提出的噪声模型与其他研究相比,在像素点之间的分布更加一般。

492614c91439aebc0ae2ef41d9b72698.png

  • 什么是多源异构噪声

Heterogeneous Annotation Noise指的是从多个不同的源头收集的数据存在差异。为了建模这种现象,本文使用多个参数各异的CEM模型来模拟。各个CEM模型的参数由从图中的均匀分布采样得到。

下图给出了不同参数设置的可视化情况:

dfc033e3bd1bfadc4d81984b08256a25.png

所提方案


  • Quantity-Based Aggregation

现有的基于FedAvg的联邦学习方法的聚合权重只取决于数据量,而不考虑数据质量。针对此,本文提出了一种新的见解,即让聚合过程具有质量感知性。因此,作者介绍了一种新框架,如下图所示,它展示了多个客户端与服务器之间的交互过程。

c4752747560200145247f9c65fcee20e.png

在图中,可以看到有三个客户端(Client i、Client j和Client k),每个客户端都拥有自己的本地数据和模型。这些客户端通过GMM来估计客户端的标注质量,并使用层间聚合(Layer-wise Aggregation)来合并客户端的模型更新。最后,服务器端更新全局模型,并为每个客户端返回更新后的模型参数。

920ac84c89667e217f0af55d09084353.png

评估标注质量的本质是评估噪声的质量,他们之间是等价的关系。图中展示了一种估计噪声的方法、分组客户的方法、以及强调每个组内的低噪声客户和使两个组之间达到平衡的方法。具体地,在左侧的部分,展示了两个用于估计噪声的数学等式,其中和分别表示第i个客户端在轮廓内外区域的学习难度。在中间部分,描述了使用GMM将客户分为两类的方法,其中和分别表示两组客户。右侧部分强调了在每组内强调低噪声客户的重要性(IntraGW),并提出了一个组间平衡的策略(InterGW)。本文通过这两个组件,计算出了基于质量的聚合权重。

3422a4d5fa1ae92e74145ec1a0aabf56.png

最后,作者还将基于质量和数量的权重与分层策略相结合以聚合模型。


Evaluation

本文在两个真实的医学图像分割任务重进行实验。实验数据集为ISIC 2017 (SKIN)和BUS, BUSIS and UDIAT (BREAST),以Dice Coefficient 作为评估指标。数据划分部分说明了SKIN有50个客户端,每个客户端有10个数据;BREAST有50个客户端,每个客户端只包含一个来源的数据。其他细节部分提到通信轮次为100次,Local Epoch为5次,优化器为Adam,实验重复了5次以消除随机性。具体如下图所示:

4a428a563e6c2810c8787ce05e98d0e7.png

  • Comparison against SOTA Methods

为了对FedA3I在解决异构注释噪声方面进行全面评估,作者选择了一组SOTA方法进行比较,包括GCE 、SCE 、ELR 、ADELE、RMD、NR-Dice、FedProx、FedMix、FedDM、FedCorr和FedNoRo。上述方法可以根据所使用的损失函数分为两组:基于交叉熵损失的方法(表示为CE)和涉及Dice损失的方法(表示为DC)。下表中总结了两个数据集在两种噪声设置下的定量比较结果。

053eaa8c92e4cfa414df93d4fbffe71b.png

与其他方法相比,FedA3I在不同的数据集和设置下取得了最好的性能,验证了它在处理异构注释噪声方面的有效性。

Ablation Study

  • Component-wise Ablation Study

IntraGW和InterGW被依次添加到基于数量的聚合策略(FedAvg)中,以验证基于质量的因子是否有助于噪声情况下的学习。由下表可以看出,IntraGW和InterGW的设计对模型的性能是有很好的提升作用的。

4df57d6619f220e2e112e35f7cf1b151.png


  • Ablation studies on the balance coefficient r in InterGW

在InterGW中,r默认设置为0.5,是平衡两个客户端组e368a597b3f04cdee4a5725823058f3d.jpeg86b7177fb1305b23f3c07704dc109e78.png。 为了评估r的影响,对SKIN进行了不同r设置下的消融研究,噪声设置如表1所示,定量结果如图4所示。比较结果表明r是一个与噪声相关的参数,并且如果没有适当的设置,InterGW甚至可能会失败。这是因为r是重新加权6b4e1816db415ac136454e72e973672b.jpeg6188f28a5cbe6d5a92dfe58097a2b22e.png,并且最佳加权策略可以在不同的噪声设置下变化。幸运的是,使用0.5的默认值为InterGW带来了稳定的提升,导致比第二好的SOTA方法更好的性能。

d6350d1f6db8e246bac734dda76e99f8.png


  • Ablation studies on the warm-up round T1

在FedA3I中,作者使用FedAvg训练的预热全局模型进行噪声估计。一个自然的问题出现了:热身需要多少轮训练?因此,文中在SKIN上进行了不同T1设置下的消融研究,如下图所示。FedA3I在一定范围内(即10-20)稳定优于FedAvg等方法,表明FedA3I对T1的选择具有较强的鲁棒性。因此,在模型学习的早期阶段(但不是太早),可以相对任意地选择T1,以减少超参数调优的工作量。

012ad70f55a1ada0a8aca22acfe2652b.png


Conclusion

在这篇论文中,作者首先提出了一个联邦医学图像分割的问题:如何从含有噪声的标签中学习一个好的联邦学习模型;其次,为了建模这种问题,作者提出了一种通用的注释噪音模型,称为CEM,用于表示注释者的偏好和随机性,并拓展到异构注释噪音模型,用于根据不同参数的CEMs表示跨注释者-客户端注释噪音。最后,文章介绍了一种新颖的FL框架FedA3I,用于解决FMIS中的Non-IID噪声问题,其中数据量和质量都包含在分层模型聚合中。在两个公开的真实世界医学数据集上,与现有方法相比表现优越。

提醒

点击“阅读原文”跳转到01:11:23

可以查看回放哦!

往期精彩文章推荐

fb1875e43ee4821e236e8258ad16f17a.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

8d492d922110fba41a36a92b3685296f.png

我知道你

在看

~

8e4eb1d8ceadc6055a692f2030d92c4b.gif

点击 阅读原文 观看回放!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值