主动学习

主动学习框架
*主动学习就像学生(分类器)学习一样,专门学习自己不会的(最有价值的未标记样本),然后再通过老师讲解(专家标注),不断提高自己成绩

Active Learning,即主动学习,通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度。*

深度学习在各种各样的实际应用中取得巨大突破,其主要的推动力在于三个方面:数据,算法和算力。也就是说,在很多情况下,一个完整的解决方案,需要具备这样的条件:1)足够的符号要求的数据;2)强大机器保障;3)靠谱的算法。随着大数据和GPU技术的发展,很多问题已不在是局限,但取得大量标注准确的数据依然需要高昂的成本,模型的训练依然需要大量的时间和精力,这些也成为当前深度学习的局限。在监督学习方法中,获得有标注数据是异常困难的,主动学习通过对未标注数据进行筛选,可以利用较少的标注样本取得较高的模型学习准确率。

定义

主动学习通过“选择策略”主动从未标注样本集中挑选部分样本,交给相关领域专家进行标注,然后将标注样本增加到训练数据集给“学习模块”进行训练。当学习模块满足终止条件后停止,否则不断重复获得更多的标注样本进行训练。

步骤

主要分为二个部分:学习引擎和选择引擎。其中,学习引擎负责维护一个基准分类器,根据监督学习的方法来对已标注数据进行学习,从而使该分类器的性能提高,选择引擎负责运行样例选择算法来选择一个未标注的样例并交给人类专家来进行标注,然后再将标注后的样例加入已标注样本集中。二个引擎交替工作,经过多次循环,基准分类器的性能逐渐提高,满足某个预设的条件时,整个过程终止。

A=(C,L,S,Q,U):其中C为一个或一组分类器;L为一组已标注的训练样本集;Q为查询策略函数,用于在未标注的样本中查询信息量大的样本;U为整个未标注样本集;S为监督者,可以对未标注样本进行标注。

1)选取合适的模型M,主动选择策略,数据划分train(训练数据集,有标注label),validation(验证数据集,有标注label),active(未标注数据集),其中train初始可为空。

2)初始化:随机初始化or通过迁移学习初始化,如果train不为空,可以训练初始模型M;

3)使用当前模型M对U进行预测,得到每个样本的预测结果,通过Q查询信息量大的样本。

4)专家对n'进行标注,更新标注集合n=n+n’;

5)基于训练集n,训练更新模型M;

6)使用M在validation上验证,符合收敛条件则停止迭代,否则循环执行3-5;

其中,对于查询策略Q(选择策略,查询函数),在各种主动学习方法中,查询函数的设计最常用的策略是:不确定性准则(uncertainty)和差异性准则(diversity)。

(1)对于不确定性准则,我们可以借助信息熵的概念来进行理解。我们知道信息熵是衡量信息量的概念,也是衡量不确定性的概念。信息熵越大,就代表不确定性越大,包含的信息量也就越丰富。

(2)对于差异性准则,即样本之间具有一定的差异性。希望所查询的样本提供的信息是全面的,各个样本提供的信息不重复不冗余。

优点

能够很好的处理较大的样本,从中选择有辨识能力的样本点,减少人工标注成本,高效的训练模型。

参考:

主动学习的概述

主动学习(Active Learning)介绍

浅谈主动学习:如何高效的训练模型

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值