主动学习（五）—— adaptive+improved entropy-based sampling method

最新推荐文章于 2024-08-10 08:20:54 发布

JYZhang_sh

最新推荐文章于 2024-08-10 08:20:54 发布

阅读量2.2k

点赞数

分类专栏：主动学习

本文链接：https://blog.csdn.net/JYZhang_CVML/article/details/60769632

版权

主动学习专栏收录该内容

8 篇文章 4 订阅

订阅专栏

本博客系原创作品，转载请注明出处：http://blog.csdn.net/JYZhang_CVML/article/details/60769632
文章来源：Practice makes perfect: An adaptive active learning framework for image classification
博客所述纯属个人小白理解，也欢迎大神拍砖指正~

算法背景

　　uncertainty sampling 方法是active learning 算法中非常常用的算法，其简单高效，对于分类器的依赖程度低。但是传统的 uncertainty sampling 方法存在这样的缺陷：仅仅考虑样本的 uncertainty 程度（也就是 informative 程度，本文算法通过 entropy-based 算法衡量），而没有考虑样本的标签分布（也就是representation 程度）。 因此会造成算法sampling过程的缺陷。
　　这里写图片描述
　　针对上述问题，本文提出 The negative-accelerated adaptive active sampling with a bag-of-visual-words （NAASB）主动学习框架。其特征在于：（i）用 Rescorla-Wagner 感知模型作为终止准则。（ii）考虑样本类标签分布，利用从 BoVW估计得到的certainty度量引入传统的基于熵的uncertainty sampling 方法，得到更加准确的certainty度量。（iii）自适应性。在训练过程中，权值通过样本集合的内部相似性（SSIM）自适应初始化，在学习过程中动态调整。

算法概述

　　NAASB算法包括两个部分：图像分类器训练和样本选择。
　　（a）图像分类器训练。
　　利用标记好的样本集合训练分类器，以及根据不同类别特征自适应的初始化NAASB的参数。
　　每次迭代通过主动选择策略选择样本，然后给标记，训练得到效果更好的分类器。
　　停止准则：根据negative-accelerated原则衡量分类器的效果。
　　（b）样本选择
　　将分类器的certainty输出引入考虑类标签分布的基于熵的主动采样策略中。
　　挑选出来的样本通过分类器标注，而减少人工标注的工作。

算法细节

　　算法细节部分，主要考虑两个方面：参数初始化和如何考虑类标签。
　　

NAASB的度量方式——如何将类标签分布考虑进基于熵的uncertainty sampling
　　基于熵的主动学习算法：。这种算法的缺陷在于：在采样阶段忽略了类标签分布。
　　针对上述问题，将通过BoVW计算得到的确定性度量certainty measure引入传统的基于熵的采样方法，来估计样本的类标签分布。类标签分布通过下面估计得到：
　　。
　　其中 $p_i^A$ 是分类器对于特定BoF特征的相应，因此 $c$ 是测试样本估计的类标签。注意 $Y_i^c$ 是 c类的第i个标记的样本。
　　因此， $D_s$ 是当前样本和标记好的样本集中对应类标签相同的样本之间的MSE。通过考虑标记好的样本集的MSE，representativeness 加入模型中提升样本选择算法的效果。
　　讲真话~个人理解这边所谓的考虑样本类标签的分布，其实就是 diversity 的一种形式。不过传统的 diversity 算法考虑的是当前样本和之前选择的样本之间的 diversity，而本算法考虑的是当前样本和labeled样本中相同类标签的样本的 diversity。
　　综上，总的对于当前样本的度量方程：
　　。
　　其中 $D_e$ 代表uncertainty度量，提供样本的信息量大小信息。
　　 $D_s$ 代表类分布，提供样本对于整个数据空间的representativeness。
　　考虑到 $D_e$ 和 $D_s$ 的量级可能会存在不同，对这两者独立地进行正则化处理。其中参数 $beta$ 正是下文参数选择的主要目标。
　
自适应参数设置
　　
　其中 $t$ 是迭代次数， $k$ 是最开始的值，需要注意的是 $w$ 根据不同的类别设置不同的值。
　问题一：为什么设置 $Beta$ 随着迭代次数衰减？
　随着迭代次数的增加，我们能够得到越来越好的分类器。从上面的对于 $D_s$ 的求解计算也可以发现，其计算是依赖于分类器对于当前样本类别的估计的，因此迭代次数越多估计越准确，应该给 $D_s$ 更大的权重。
　问题二：为什么给不同类别不同的 $w$ ？
　（i）不同类别的样本，它们的特征的尺度，相似性，质量存在比较大的区别，分类结果应该独立于 $k$ 。
　（ii）训练样本数量也会影响分类器的训练。越多的样本提供给分类器训练，分类器对应训练时间越长，得到的性能就越好。
　因此，在本算法中对不同的类别设置不同的 $w$ ，采用结构相似性SSIM来表示一个类别内样本之间的关系，从而对训练集的不同类别进行动态初始化 $w$ 。

总结

　　结合BoVW的类标签分布和基于熵的主动选择策略能够提高选择过程的质量。
　　informativeness衡量样本减少分类器uncertainty的能力，representativeness衡量样本表征未标记样本模式的能力。本算法中informativeness通过基于熵的uncertainty sampling得到，同时representativeness通过类似diversity的方式引入uncertainty sampling。同时自适应的参数调节使得算法有更好的性能。