O-MedAL: Online Active Deep Learning forMedical Image Analysis主动学习部分

传统主动学习方法及其局限性

主动学习模型

Membership Query Synthesis:这就是学习者从一个潜在的自然分布中生成自己的实例的地方。例如,如果数据集是人类和动物的图片,学习者可以向Oracle(标注者)发送一条腿的剪辑图像,并查询这个附件是属于动物还是人类。如果数据集很小,这尤其有用。但会出现生成的图片人工标注者也难以分辨标注的问题。

Stream-Based Selective Sampling:在这里,每个未标记的数据点一次检查一个,机器根据其查询参数评估每个项目的信息量。学习者自己决定是为每个数据点分配一个标签还是向Oracle(标注者)查询。很明显,对于数量较大的样本池来说,每一次迭代都要依次查询每一个样本并决定要不要标注是一件很浪费时间的事。

Pool-Based Sampling:这种模型下,学习者对整个样本池中数据进行处理,得到所有样本的不确定性参数,系统选择最不确定的一个样本交给oracle标注。这种模型是目前应用较广泛的模型。

查询策略

在确定了模型后,主动学习中最核心的就是查询策略了,关于查询策略,这里主要介绍最流行的四种查询策略。

Query By Committee:QBC是一种有效的选择性抽样方法,由n个学生模型组成的委员会在同一数据集上进行训练。下一个被查询的数据样本是根据所有模型产生的预测结果之间的分歧最大化而从这个数据集中选择的。这种方法需要训练多个模型,因此在计算效率上较差。

Expected Error Reduction:标记那些最能减少模型泛化误差的样本,由于需要对每个样本预测未来的错误(损失),因此计算量较大。

Expected Model Change:它将选择引起模型的重大变化的样本。它有两个主要缺点。首先,当特征没有被适当地缩放时,它的表现并不充分。第二,如果特征空间和未标记数据集都非常大,它的计算成本会很高。一些EMC的扩展被提出来以处理原始EMC的低效率问题,如Variance Reduction,其中选择最能减少模型方差的例子。不幸的是,根据经验,EMC方法仍然比更简单的查询策略,如不确定性抽样,要慢得多。

Uncertainty Sampling:在这种方法中,主动学习者查询它最不确定的实例。不确定的程度可以通过各种方法来计算,比如熵值,它是对随机程度的一个很好的估计。在这种方法中,最不确定的实例通常位于分类边界上,而这些数据可能并不能代表整个样本集的分布情况,因此这种方法并不能很有效的提升模型准确度。

其他方法:如多样性采样,考虑整个样本池的分布,尽可能确保查询样本覆盖整个分布。混合查询策略,即将多种策略相结合进行样本选取。密度权重采样等等。

O-MedAL

查询策略:

第一步:使用Dtrain训练一个模型model,然后采用基于不确定性采样的方式得到M个最大熵值的未标记样本形成CM样本集。具体做法如公式(1),先使用model模型对未标记样本池Dorcale中的样本x进行预测,再计算其熵值,选取熵值最大的的M个样本。

第二步:使用特征嵌入函数f()及距离d计算出s(x)。具体方法如公式(2),先采用特征嵌入函数f()对已标记样本xi及查询样本x进行特征提取,然后计算查询样本到所有已标记样本的距离之和并取平均值。

                 其中f()特征嵌入函数为训练模型model的中间层输出所抽离出来的函数,这样的话,特征嵌入函数会随着模型性能的不断提升,其对样本的特征提取能力也在不断提升,提取出了更好的样本特征又会进一步促进模型性能的提升。d()为距离函数,本文中采用的是欧氏距离。

第三步:在待查询样本集CM中找到S()值最大的样本交给orcale标注。具体方法如公式(3),对所有CM集中样本计算其S(x)值,选择最大的一个样本为x*。

        最初的MedAL论文(Smailagic等人,2018)评估了各种距离函数,并根据经验发现,在对无标签实例的随机子集进行分类时,欧氏距离和余弦距离产生的熵分别最高和第二高。虽然这些证据表明,任何一种度量都适合选择d,但我们选择欧氏距离,原因是使用欧氏距离可以将s(x)[x∈CM]的计算从Dor acl e和Dt r ai n中的例子之间的成对距离矩阵(这是O(M N)的操作)减少到每个未标记的点到标记的例子的中心点的简单距离(这是O(M)的操作),从而在每次AL迭代中获得二次到线性的速度提升。尤其是当训练进行到后期时,随着Dtrain中的数据样本越来越多,N将越来越大,因此这种速度提升对于大样本集来说还是很有用的。对于这种方法的可行性证明如下:

第一步,如下图所示计算出已标记样本的中心。

第二步,对于所有CM样本集中的标签都精确计算出其S(x)值是没有必要的,因为我们最终需要的仅仅是他们的S(x)值排序即可。因此我们定义一个运算函数这个函数将所给元素进行从大到小的排序并返回排序后的索引值,这样的话,我们可以得到这样的等式关系:

 第三步:当S(x)=d(f(x),y)成立时,有以下等式成立:

 第四步,在一维问题中,对数字进行拉伸和压缩并不会改变其大小排序,于是有了以下等式:

 C为一恒定常数。

更进一步,若c是非负数,等式可进一步拓展为:

我们接下来使用这些等式对(5)进行简化,

 

 结果表明,左式等于右式,则S(x) = d(f(x),y)成立。

模型训练

在模型训练方面的改进:

首先,虽然MedAL在每次AL迭代时都会重新初始化模型参数,但O-MedAL在每次新的AL迭代时都会保持参数,并递增地更新模型。这一变化可以大大节省计算量,因为MedAL在每次AL迭代中重新训练模型一次,而O-MedAL在所有AL迭代中只训练一个模型,用于训练模型的总次数可以少一个数量级。其次,MedAL使用完整的训练集Dt r ai n来训练模型,而O-MedAL则在新标记的项目和以前标记的项目的随机子集上训练。我们根据经验发现,包括一个非空的先前标记的数据子集是必要的,我们在讨论部分进一步讨论。使用一个可用的训练数据子集也减少了用于训练模型的例子的总体数量。这两个变化都导致了计算效率的提高。第一个变化减少了训练模型所需的总历时数,而第二个变化则减少了每个历时的例子数。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值