主动学习入门

遨游的菜鸡

已于 2022-04-08 16:10:42 修改

阅读量1.5k

点赞数 1

分类专栏：主动学习文章标签：主动学习

于 2020-07-16 14:32:24 首次发布

本文链接：https://blog.csdn.net/qq_34405401/article/details/107382314

版权

主动学习是一种机器学习方法，旨在通过选择性地获取少量但有价值的未标记样本进行人工标注，以提高模型的准确性。它与半监督学习的主要区别在于主动学习需要人工准确标注，而半监督学习依赖自动标注。常用策略包括基于不确定性和多样性的样本选择。主动学习可用于减少标记样本的需求，尤其在训练样本获取困难的场景下。

摘要由CSDN通过智能技术生成

1.介绍

1.1 监督学习、半监督学习、非监督学习

在机器学习(Machine learning)领域，根据是否需要样本的标签信息可分为监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learning)：

监督学习：通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。例如：如果我们一开始就知道了这些数据包含的类别，并且有一部分数据(训练数据)已经标上了类标，我们通过对这些已经标好类标的数据进行归纳总结，得出一个 “数据–>类别” 的映射函数，来对剩余的数据进行分类，这就属于监督学习。

非监督学习：直接对输入数据集进行建模，例如聚类。例如：如果我们上来就对这一堆数据进行某种划分(聚类)，通过数据内在的一些属性和联系，将数据自动整理为某几类，这就属于非监督学习。

半监督学习：综合利用有类标的数据和没有类标的数据，来生成合适的分类函数。例如: 半监督学习指的是在训练数据十分稀少的情况下，通过利用一些没有类标的数据，提高学习准确率的方法。

1.2 主动学习

1.2.1 主动学习介绍

我们使用一些传统的监督学习方法做分类的时候，往往是训练样本规模越大，分类的效果就越好。但是在现实生活的很多场景中，标记样本的获取是比较困难的，这需要领域内的专家来进行人工标注，所花费的时间成本和经济成本都是很大的。而且，如果训练样本的规模过于庞大，训练的时间花费也会比较多。那么有没有办法，能够使用较少的训练样本来获得性能较好的分类器呢？主动学习(Active Learning)为我们提供了这种可能。主动学习通过一定的算法查询最有用的未标记样本，并交由专家进行标记，然后用查询到的样本训练分类模型来提高模型的精确度。
在人类的学习过程中，通常利用已有的经验来学习新的知识，又依靠获得的知识来总结和积累经验，经验与知识不断交互。同样，机器学习模拟人类学习的过程，利用已有的知识训练出模型去获取新的知识，并通过不断积累的信息去修正模型，以得到更加准确有用的新模型。不同于被动学习被动的接受知识，主动学习能够选择性地获取知识。

1.2.2 主动学习与半监督学习异同

“半监督学习和主动学习都是从未标记样例中挑选部分价值量高的样例标注后补充到已标记样例集中来提高分类器精度，降低领域专家的工作量，但二者的学习方式不同：半监督学习一般不需要人工参与，是通过具有一定分类精度的基准分类器实现对未标注样例的自动标注；而主动学习有别于半监督学习的特点之一就是需要将挑选出的高价值样例进行人工准确标注。半监督学习通过用计算机进行自动或半自动标注代替人工标注，虽然有效降低了标注代价，但其标注结果依赖于用部分已标注样例训练出的基准分类器的分类精度，因此并不能保证标注结果完全正确。相比而言，主动学习挑选样例后是人工标注，不会引入错误类标 ”。

1.2.3 主动学习流程

主动学习在统计学领域也叫查询学习、最优实验设计。“学习器”和“选择策略”是主动学习算法的2个基本且重要的模块。主动学习通过“选择策略”主动从未标注的样本集中挑选部分（1个或N个）样本让相关领域的专家进行标注；然后将标注过的样本增加到训练数据集给“学习模块”进行训练；当“学习模块”满足终止条件时即可结束程序，否则不断重复上述步骤获得更多的标注样本进行训练。此外，主动学习算法有个关键的假设：“The key hypothesis is that if the learning algorithm is allowed to choose the data from which it learns—to be “curious,” if you will—it will perform better with less training”。

2. 基本思想

2.1 图示

主动学习的模型如下:

A=(C,Q,S,L,U)，

其中 C 为一组或者一个分类器，L是用于训练已标注的样本。Q 是查询函数，用于从未标注样本池U中查询信息量大的信息，S是督导者，可以为U中样本标注正确的标签。学习者通过少量初始标记样本L开始学习，通过一定的查询函数Q选择出一个或一批最有用的样本，并向督导者询问标签，然后利用获得的新知识来训练分类器和进行下一轮查询。主动学习是一个循环的过程，直至达到某一停止准则为止。

在这里插入图片描述

2.2 策略

刚才说到查询函数Q用于查询一个或一批最有用的样本。那么，什么样

最低0.47元/天解锁文章

遨游的菜鸡

关注

1
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
主动学习入门

主动学习是机器学习（更普遍的说是人工智能）的一个子领域，在统计学领域也叫查询学习、最优实验设计。“学习模块”和“选择策略”是主动学习算法的2个基本且重要的模块。主动学习通过“选择策略”主动从未标注的样本集中挑选部分（1个或N个）样本让相关领域的专家进行标注；然后将标注过的样本增加到训练数据集给“学习模块”进行训练；当“学习模块”满足终止条件时即可结束程序，否则不断重复上述步骤获得更多的标注样本进行训练。此外，主动学习算法有个关键的假设：“The key hypothesis is that if the l
复制链接

扫一扫

专栏目录