AIFT后续

4.应用(接上一篇)

4.1 结肠镜检查框架分类

客观的结肠镜检查质量评估对于确保高质量结肠镜检查至关重要。结肠镜检查视频通常包含大量结肠可视化不良的非信息性图像,这些图像对于检查结肠或执行治疗操作是不理想的。视频中非信息性图像的比例越大,结肠可视化的质量就越低,因此结肠镜的质量就越低。因此,测量结肠镜检查过程的质量的一种方法是监测捕获图像的质量。从技术上讲,结肠镜检查时的图像质量评估可以公式化为图像分类任务,由此输入图像被标记为信息性或非信息性。
对于实验,从6个完整结肠镜检查视频中选择4000个结肠镜检查框架。然后受过训练的专家手动标记收集的图像作为信息或非信息。胃肠病学专家进一步回顾了标记的图像进行校正。视频级别的标签帧被分成训练集和测试集,每个集包含大约2000个结肠镜帧。对于数据增强,我们从每个帧中提取了21个patches。
在所有三个应用程序中,我们的AIFT从空训练数据集开始,并直接使用AlexNet对ImageNet进行预训练。图3示出在第一步骤(2个标签被查询),IFT Random产生最佳性能。有两个可能的原因:(1)随机选择给出具有与测试数据集相容的正负比的样本;(2)预训练的AlexNet在我们的数据集上给出差的预测,因为它是由自然图像而不是生物医学图像训练的。其输出概率大多是混淆或甚至不正确,产生较差的选择分数。然而,AIFT Diversity1/4、Entropy、Entropy1/4在首次fine-tuning之后迅速超过IFT Random,因为它们选择用重要的样本去微调,使得训练过程比仅从剩余训练数据集中随机选择更为有效。只有4个标签查询的AIFT Entropy和Diversity1/4可以获得18个标签查询的IFT Random性能和22个随机选择帧的Learning from Scratch性能。因此,相对于IFT Random,可以节省75%以上的标签成本;对于Learning from Scratch,可以节省80%。
在这里插入图片描述
因为通过数据增强产生的噪声标签,AIFT多样性甚至比IFT Random更差。AIFT多样性强烈地支持预测模式类似于模式C的框架。当然,它很可能会选择一个模棱两可的框架,例如图1和图2(c),因为对其patches的预测是高度多样的。从同一帧生成的所有patches都继承与帧相同的标签;因此,在patches级别,对于模糊的帧,标签非常嘈杂。AIFT Entropy,Entropy1/4和Diversity1/4可以自动排除噪声标签,自然产生优异的性能。鉴于AIFT Entropy、Entropy1/4和Diversity1/4的出色性能,可以考虑将熵和多样性结合起来,但不幸的是,组合并不总是提供更好的性能,因为要在熵和多样性之间建立良好的平衡是很困难的,如我们的示例所示Tab1和补充材料。
在这里插入图片描述

4.2 息肉检测

结肠镜检查是结肠癌筛查和预防的首选技术。结肠镜检查的目的是将结肠癌息肉前体切除并除去结肠癌,如图4所示。对于息肉检测,我们的数据库包含38个不同患者的38个短结肠镜视频,它们被分成训练数据集(21个视频;11个有息肉和10个没有息肉)和测试数据集(17个视频;8个有息肉的视频和9个没有息肉的视频)。训练数据集和测试数据集在患者级别之间没有重叠。数据集中的每个结肠镜检查框都带有二进制ground truth image。从训练数据集和测试数据集分别生成16300名候选人和11950名候选人。
在这里插入图片描述
在每个给定的bounding box的息肉候选位置,我们用因子f∈ {1.0,1.2,1.5 }执行数据增强。在每个比例尺上,我们在候选者被调整大小的边界框在垂直和水平方向上的10%平移之后提取patches。我们通过镜像和翻转进一步旋转每个结果补丁8次。由数据增强产生的patches属于同一候选。
在这里插入图片描述
图5显示了AIFT (Entropy+Diversity)1/4和Diversity1/4在610个标签查询时达到峰值性能,而IFT Random需要5711个查询,表明AIFT可以减少IFT Random所需的注释成本的近90%。AIFT(Entropy+Diversity)1/4和Diversity1/4的快速收敛归因于majority selection方法,它能够有效地选择信息量大、有代表性的候选,同时排除有噪声标签的候选。当查询数约为5000时,AIFT Entropy1/4达到峰值。原因在于熵只能度量信息量,所以查询的样本很可能彼此相似。它需要更多的查询来选择大部分的信息候选人。由于标签嘈杂,使用majority selection的AIFT Diversity和(Entropy+Diversity)不能像the counterparts一样表现良好。即使使用所有的训练样本,Learning from Scratch也永远不会达到fine-tuning的性能,这与[24]是一致的。
为了获得进一步的见解,我们还监测剩余的训练数据集上的8种方法的性能。每次我们调整了以前的CNN,我们在剩下的训练数据集上测试它。我们已经观察到,只有800个候选人需要达到最大的性能。如图6所示,通过我们的方法选择的候选者仅占所有候选者的5%(800/16300),可以表示剩余的数据集,因为在结肠镜检查视频中,连续的帧通常彼此相似。
在这里插入图片描述

4.3 肺栓塞(PE)检测

我们的实验是基于[16]中提出的方法和[23]中引入的图像表示生成的PE候选,如图7所示。我们采用双通道表示,因为它能持续地捕获血管横截面和纵向视图中的PEs,从而获得更高的分类精度和加速CNN训练过程。为了将类RGB patches 馈送到CNN,通过复制第二信道,将2信道patches转换为3信道类RGB patches。对于实验,我们使用一个由121个CTPA数据集组成的数据库,总共有326个PEs。应用tobogganing算法〔16〕获得PE候选的粗集。生成6255个PE候选,其中5568个为假阳性,687个为真阳性。为了训练CNN,我们提取3种不同的物理尺寸的补丁,即10毫米,15毫米,和20毫米宽。然后,我们将每个候选位置沿受影响血管的方向平移3次,最多达到每个patch物理大小的20%。然后,通过围绕血管轴旋转纵向和横截面血管平面来执行训练数据集的数据扩充,导致每个比例尺和平移的另外5个变化。
在这里插入图片描述
最后,生成具有434个真实阳性PE候选和3406个假阳性PE候选的分层训练数据集,用于训练和不断地微调CNN和具有253个真阳性PE候选和2162个假阳性PE候选的测试数据集。总体PE概率是通过在数据扩增后对PE候选中的patches生成的概率预测进行平均计算的。
在这里插入图片描述
图8比较了测试数据集上的8种方法。在2000个标签查询之后,每个方法的性能变得饱和。AIFT(Entropy+Diversity)1/4和Diversity1/4是8种方法中收敛速度最快的,其综合性能最好,这归因于本文提出的多数选择方法。AIFT(Entropy+Diversity)1/4和Diversity1/4只需要1000个标签,就可以实现从AlexNet(IFT Random)中随机选择2200个标签fine-tune的性能。注意,即使AIFT Diversity在查询大约3100个样本时也达到峰值性能,因为PE数据集注入了少量噪声标签。由于熵有利于不确定的模糊样本,AIFT Entropy1/4和Entropy在开始时表现较差。IFT Random的性能优于最初的步骤,如Sec.4.1中所分析的,但总体增长缓慢。基于这种分析,注释的成本可以被我们的方法至少减少一半。

4.4 选择模式的观察

在这里插入图片描述
我们仔细地监视了主动选择过程,并检查了所选的候选者,例如,我们在补充材料中将6种AIFT方法在迭代3中选择的前10种候选者包括在结肠镜框架分类中(参见图10)。从这个过程中,我们观察到如下:
1.模式A和B在AIFT的早期阶段占主导地位,因为CNN没有被适当地调谐到目标域。
2.模式的C、D和E在AIFT的后期阶段占主导地位,因为CNN在很大程度上依赖于目标数据集。
3.多数选择-AIFT Entropy1/4、Diversity1/4或(Entropy+Diversity)1/4-在排除模式C、D和E方面是有效的,而AIFT Entropy(没有多数选择)可以合理地处理模式C、D和E。
4.模式B、F和G可以很好地提升当前CNN的性能。
5.AIFT Entropy和Entropy1/4支持模式A,因为它的不确定性程度较高,如图10所示。
6.AIFT Diversity1 / 4喜欢模式B,而AIFT Diversity更喜欢模式C(图10)。这就是为什么AIFT Diversity可能导致CNN性能的突然干扰,以及为什么AIFT Diversity1/4通常应该被首选。
7.结合熵和多样性是非常可取的,但是它们之间的平衡并不微不足道,因为它需要应用规范λ 1和λ 2(参见公式3),需要进一步的研究。

5.结论

我们开发了一种主动的、不断微调的方法,将主动学习与转移学习相结合,提供了几个优点:它从完全空的标记数据集开始,通过主动选择最具信息性和代表性的样品连续fine-tuning逐步提高CNN的性能。它还可以通过多数选择自动处理有噪声的标签,并在每个候选者内的少量补丁上局部计算熵和多样性,从而大大节省了计算时间。我们已经在三个不同的生物医学成像应用中评估了我们的方法,证明注释的成本可以至少减少一半。这种性能是由于AIFT方法中先进的积极和增量的能力。
我们基于AlexNet架构进行实验,因为Caffe库中提供了一个预先训练的AlexNet模型,并且它的架构在深度上达到了很好的平衡:它足够深入,我们可以研究AIFT对预先训练的CNN性能的影响,并且它也是足够浅的这样我们就可以很快地进行实验了。或者,可以使用诸如VGG、GoogleNet和残差网络等更深层的体系结构,并且已经显示出对挑战计算机视觉任务的相对高性能。然而,本文的目的不是为了实现不同生物医学图像任务的最高性能,而是为了回答一个关键问题:当在生物医学成像中应用CNN时,如何显著降低注释的成本。在补充材料中报告了体系结构和学习参数。
在现实世界中,数据集通常是不平衡的。为了获得良好的分类性能,两类样本都应用于训练。图9显示了在结肠镜质量应用中,在每次迭代中由六种方法选择的样品的正/负标记比。对于随机选择,该比例几乎与整个训练数据集相同,一个原因是IFT Random在开始时具有稳定的性能。AIFT Diversity1/4、Entropy1/4和Entropy似乎能够自动保持数据集的平衡,这是一个值得今后进一步研究的新观察。
在这里插入图片描述
我们选择在候选层次上选择、分类和标记样品。在患者级别的标签肯定会更多地降低注释的成本,但是引入更严重的标签噪声;在补丁级别的标签将处理标签噪声,但是给注释专家带来更沉重的负担。我们相信,在我们的三个应用中,在候选人层面上的标签提供了一个合理的平衡。
最后,本文仅以熵和多样性为标准。在理论上,可以设计大量的主动选择方法,但是我们发现只有七种基本模式,如Sec.3.4。因此,我们可以方便地专注于比较七种模式,而不是许多方法。可以使用多种方法来选择特定的模式:例如,熵、高斯距离和标准偏差将寻找模式A,而多样性、方差和散度将寻找模式C。我们并不期望每组方法之间有显著的性能差异,从而导致基于真实临床应用的六种主要选择方法进行深入比较。

Supplementary material

The AlexNet architecture and learning parameters used in our experiments

As discussed in Sec. 5, the purpose of this work is not to achieve the highest performance for different biomedical image tasks but to answer the critical question: How to dramatically reduce the cost of annotation when applying CNNs in biomedical imaging. For this purpose, we base our experiments on AlexNet, whose architecture is shown in Table 2, as it is deep enough that we can investigate the impact of AIFT on the performance of pre-trained CNNs, and also small enough that we can conduct experiments quickly. Learning parameters used for the training and fine-tuning of AlexNet in our experiments are summarized in Table 3.
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值