主动学习

最新推荐文章于 2023-04-20 17:43:31 发布

lixiaochao_374

最新推荐文章于 2023-04-20 17:43:31 发布

阅读量209

点赞数

文章标签：算法机器学习人工智能

原文链接：https://blog.csdn.net/angela2016/article/details/84228457

版权

主动学习概述-搬运

什么是主动学习？解决什么问题？
主动学习的基本流程
几个热门方向

原文链接：https://blog.csdn.net/angela2016/article/details/84228457

什么是主动学习？解决什么问题？

设想一个问题的场景：在监督学习方法中，获得有标注数据是异常困难的，而获得无标签数据时相对容易的，有这个现状的情况下，那我们该如何解决这些问题呢？主动学习就是为了解决此类问题而出现的。

主动学习的基本流程

一般而言，主动学习方法，主要分为二个部分：学习引擎和选择引擎。其中，学习引擎负责维护一个基准分类器，根据监督学习的方法来对已标注数据进行学习，从而使该分类器的性能提高，选择引擎负责运行样例选择算法来选择一个未标注的样例并交给人类专家来进行标注，然后再将标注后的样例加入已标注样本集中。二个引擎交替工作，经过多次循环，基准分类器的性能逐渐提高，满足某个预设的条件时，整个过程终止。

几个热门方向

对于主动学习而言，研究的几个热门方向现列举如下。

1. 从理论上而言

主动学习相比监督学习算法而言，能够多大程度可以降低样本复杂度。对于传统监督学习算法而言，为了获得期望错误率小于e的分类器，那么要求样本复杂度为一个数值，我们不管这个数值是多少,那么主动学习就必须对于样本复杂度要求更低，这样才有意义，不然要主动学习干哈。。但这个方向真的太数学了。

2. 样例选择算法

也就是选择引擎的算法的选择。如何选择未标注的样例呢？是逐个按照先后顺序来提交给选择引擎（基于流的主动学习）或者是维护一个未标注的样本集（基于池的主动学习）。
在基于池的样例选择算法中，我们的研究很充分，是按照怎么样的标准来选择呢？
第一种选择的方法可以是不确定度缩减的方法（信息熵）。这类方法选择那些当前基准分类器最不能确定其分类的样例进行标注。这类方法以信息熵作为衡量样例所含信息量大小的度量，而信息熵最大的样例正是当前分类器最不能确定其分类的样例。从几何角度看，这种方法优先选择靠近分类边界的样例。
第二种方法中基于版本空间缩减的方法（类似于投票选择）。这类方法选择那些训练后能够最大程度缩减版本空间的样例进行标注。在二值分类问题中，这类方法选择的样例总是差不多平分版本空间。
第三种方法基于泛化误差缩减的方法（减少估计未来的错误率）。这类方法试图选择那些能够使未来泛化误差最大程度减小的样例。其一般过程为：首先选择一个损失函数用于估计未来错误率，然后将未标注样例集中的每一个样例都分别估计其能给基准分类器带来的误差缩减，选择估计值最大的那个样例进行标注。这类方法直接针对分类器性能的最终评价指标，但是计算量较大，同时损失函数的精度对性能影响较大。
第四种方法，无法进行归类的主动学习算法，如COMB,多视图主动学习，预聚类主动学习等。

在基于流的样例选择算法中，大多可以通过调整基于池的算法来实现，一般是通过阈值来判定是否对其进行标注。