本博客系原创作品,转载请注明出处:http://blog.csdn.net/JYZhang_CVML/article/details/60769632
文章来源:Practice makes perfect: An adaptive active learning framework for image classification
博客所述纯属个人小白理解,也欢迎大神拍砖指正~
算法背景
uncertainty sampling 方法是active learning 算法中非常常用的算法,其简单高效,对于分类器的依赖程度低。但是传统的 uncertainty sampling 方法存在这样的缺陷:仅仅考虑样本的 uncertainty 程度(也就是 informative 程度,本文算法通过 entropy-based 算法衡量),而没有考虑样本的标签分布(也就是representation 程度)。 因此会造成算法sampling过程的缺陷。
针对上述问题,本文提出 The negative-accelerated adaptive active sampling with a bag-of-visual-words (NAASB)主动学习框架。其特征在于:(i) 用 Rescorla-Wagner 感知模型作为终止准则。(ii)考虑样本类标签分布,利用从 BoVW估计得到的certainty度量引入传统的基于熵的uncertainty sampling 方法,得到更加准确的certainty度量。(iii)自适应性。在训练过程中,权值通过样本集合的内部相似性(SSIM)自适应初始化,在学习过程中动态调整。
算法概述
NAASB算法包括两个部分:图像分类器训练和样本选择。
(a) 图像分类器训练。
利用标记好的样本集合训练分类器,以及根据不同类别特征自适应的初始化NAASB的参数。
每次迭代通过主动选择策略选择样本,然后给标记,训练得到效果更好的分类器。
停止准则:根据negative-accelerated原则衡量分类器的效果。
(b) 样本选择
将分类器的certainty输出引入考虑类标签分布的基于熵的主动采样策略中。
挑选出来的样本通过分类器标注,而减少人工标注的工作。
算法细节
算法细节部分,主要考虑两个方面:参数初始化和如何考虑类标签。
- NAASB的度量方式——如何将类标签分布考虑进基于熵的uncertainty sampling
基于熵的主动学习算法: 。这种算法的缺陷在于:在采样阶段忽略了类标签分布。
针对上述问题,将通过BoVW计算得到的确定性度量certainty measure引入传统的基于熵的采样方法,来估计样本的类标签分布。类标签分布通过下面估计得到:
。
其中 pAi 是分类器对于特定BoF特征的相应,因此 c 是测试样本估计的类标签。注意Yci 是 c类的第i个标记的样本。
因此, Ds 是当前样本和标记好的样本集中对应类标签相同的样本之间的MSE。通过考虑标记好的样本集的MSE,representativeness 加入模型中提升样本选择算法的效果。
讲真话~个人理解这边所谓的 考虑样本类标签的分布,其实就是 diversity 的一种形式。不过传统的 diversity 算法考虑的是当前样本和之前选择的样本之间的 diversity,而本算法考虑的是当前样本和labeled样本中相同类标签的样本的 diversity。
综上,总的对于当前样本的度量方程:
。
其中 De 代表uncertainty度量,提供样本的信息量大小信息。
Ds 代表类分布,提供样本对于整个数据空间的representativeness。
考虑到 De 和 Ds 的量级可能会存在不同,对这两者独立地进行正则化处理。其中参数 beta 正是下文参数选择的主要目标。
- 自适应参数设置
其中 t 是迭代次数,k 是最开始的值,需要注意的是 w 根据不同的类别设置不同的值。
问题一:为什么设置Beta 随着迭代次数衰减?
随着迭代次数的增加,我们能够得到越来越好的分类器。从上面的对于 Ds 的求解计算也可以发现,其计算是依赖于分类器对于当前样本类别的估计的,因此迭代次数越多估计越准确,应该给 Ds 更大的权重。
问题二:为什么给不同类别不同的 w ?
(i)不同类别的样本,它们的特征的尺度,相似性,质量存在比较大的区别,分类结果应该独立于k 。
(ii) 训练样本数量也会影响分类器的训练。越多的样本提供给分类器训练,分类器对应训练时间越长,得到的性能就越好。
因此,在本算法中对不同的类别设置不同的 w ,采用结构相似性SSIM来表示一个类别内样本之间的关系,从而对训练集的不同类别进行动态初始化w 。
总结
结合BoVW的类标签分布和基于熵的主动选择策略能够提高选择过程的质量。
informativeness衡量样本减少分类器uncertainty的能力,representativeness衡量样本表征未标记样本模式的能力。本算法中informativeness通过基于熵的uncertainty sampling得到,同时representativeness通过类似diversity的方式引入uncertainty sampling。同时自适应的参数调节使得算法有更好的性能。