Annotation Cost-Sensitive Deep Active Learning with Limited Data (StudentAbstract)

qq_45906474

于 2022-09-30 10:53:04 发布

阅读量1.2k

点赞数 22

本文链接：https://blog.csdn.net/qq_45906474/article/details/127113965

版权

本文来自第三十六届AAAI人工智能会议（AAAI-22）

概述：

主动学习（AL）旨在通过在未标记的数据集中选择信息量最大的样本来减少标记所需的数据量来缓解这一问题。然而，许多主动学习方法没有考虑注释数据的成本，而是假设所有数据点的标签成本是统一的（Settles 2011），这可能导致选择的样本在实践中获得的成本非常高。我们解决了非统一样本成本的AL问题。我们首先研究了一种常用的AL方法，即蒙特卡洛（MC）Dropout（Gal, Islam, and Ghahramani 2017），在使用MNIST数据集（Deng 2012）制作的合成分类任务上的性能。然后，我们强调了注释成本和准确性之间可能存在的权衡，并展示了如何在使用先前标记的数据进行AL期间学习未知的注释成本，以便在成本和准确性之间进行权衡。

介绍：

本文采用了以下获取函数。分歧的贝叶斯主动学习（BALD）、熵和标准偏差（STD）。为了模拟生物医学成像的背景，在这种情况下，我们必须决定orcale应该对哪些部分进行注释，我们考虑使用MNIST数据集进行以下任务：每一次AL迭代，我们提供给AL模型N个图像，AL要从中选出n个需要标注的图像，以前迭代的图像不再被考虑。

关于注释成本，我们使用两部分来模拟图像的注释成本：i）取决于MNIST类别的基本获取成本，以及ii）根据每张图像内二进制数字的周长计算的注释成本。不确定性I 和标注成本C之间使用比率进行结合：

其中， $\alpha$ 和 $\beta$ 可以控制不确定性和成本的相对重要性，可以看出，当 $\beta$ =0时，这将回到了传统的AL问题，即不考虑成本问题。

我们对成本问题给与了两种方式：一是已知注释成本，二是通过学习得到注释成本。在第二种方式中，我们利用卷积神经网络CNN来学习每次迭代中的注释成本，使用先前标记的图像成本作为模型训练数据。

实验过程：

初始化数据集从每类中取两张图像，共20张。然后，在每次迭代中将从1000个图像中再选取10个进行标注。这种实验对每一种考虑的方法都重复5次，结果取平均值。作为一个基线，我们首先评估了不同的获取函数，而不考虑分类任务的成本。结果显示，在相同数量的训练数据下，AL可以达到比随机选择更高的准确率。我们发现STD表现最好（仅使用了60%左右的图像即达到90%的准确性），始终需要最少的训练图像来达到90%的准确性。因此，在下文中，我们将使用STD的采集功能。

接下来，我们应用第一种方式考虑注释成本问题，即在图像注释前就给定注释成本，接着，我们取 $\alpha$ =1， $\beta$ 取0~0.5以突出成本和不确定性之间可能的权衡，迭代次数取98以更好观察AL在多次迭代中的行为，为了使选择更多信息的图像的成本更高，给每个类别分配了一个基本的获取成本，从而导致成本和准确性之间的权衡更加困难。实验结果如图1所示：

从图中可以看出，准确率将随着 $\beta$ 的升高而降低，但仍有可能以相当低的成本达到等于或优于随机选择的准确率。对于 $\beta$ <0.2时，相同数量的训练图像中，总的注释成本高于随机选择。从两幅图（一个迭代50次，一个迭代98次）可以看出，随着训练图像的增加，成本和准确性之间的权衡变得不再重要，因为当有足够多的训练数据时，性能将趋于稳定。

最后，我们考虑样本的注释成本是未知的，采用第二种方式，即使用一个卷积神经网络CNN来学习未标注数据的注释成本。模型训练使用先前获得的（标注）数据的已知成本。

我们选择β=0.3，因为这个值可以达到比随机选择更低的注释成本，而对准确性的牺牲却最小。我们观察到，与随机和统一成本选择相比，标注成本可以与分类任务同时学习，同时降低标注成本（图1中粉色的点）。然而，预测的成本往往被低估，导致相同β值的成本效率略低。当数据采集和注释成本未知时，这种估计仍然可以比假设统一成本（β=0）有更好的表现。因此，在AL中考虑注释成本是一个可行的方法。