主动学习综述

一、主动学习是什么?

        主动学习的主要目的是在保证分类器精度不降低的前提下尽量降低人工标注的成本
        主动学习算法通过迭代方式在原始样例集中挑选可以提升模型性能的样例进行专家标注,并将其补充到已有的训练集中,使被训练的分类器在较低的标注成本下获得较强的泛化能力
        

二、主动学习三个关键步骤

1、初始训练样例集的构建方法及其改进

        在开始主动学习之前必须对基准分类器进行初始训练,问题的关键是如何构建高效能的初始训练样例集

        一般随机挑选的初始训练集不具有代表性,而由代表性样例组成的初始训练集是训练较高精度基准分类器的前提

        基于聚类(如:划分聚类算法(K-Me-doids、分层聚类样例选择)或距离相似性度量的方法是选择代表性样例的常用方法

2、样例选择策略及其改进

        学习模块需要不断地选择出分类贡献率高的样例交给领域专家进行标注并补充到已有训练集中.由此可知,选挑样例的“优”、“劣”将直接影响分类器性能

2.1、基于流的样例选择策略

        基于流的策略依次从未标注样例池中取出一个样例输入到选择模块,若满足预设的选中条件则对其进行准确的人工标注,反之直接舍弃。

        该学习过程需要处理所有未标记样例,查询成本高昂,时间复杂度高。

        由于基于流的样例选择策略需要预设一个样例标注条件,但该条件往往需要根据不同的任务进行适当调整,因此很难将其作为一种通用方法普遍使用

2.2、基于池的样例选择策略

        基于池的方法每次从系统维护的未标注的样例池中按预设的选择规则选取一个样例交给基准分类器进行识别,当基准分类器对其识别出现错误时进行人工标注.

        基于池的方法每次都可选出当前样例池中对分类贡献度最高的样例,这既降低了查询样例成本,也降低了标注代价

        基于池的样例选择标准主要包括:不确定性标准、版本空间缩减标准、泛化误差缩减标
准等.

2.2.1、不确定性标准
①、用概率表示不确定性程度

        基于概率的启发式方法建立在样例的后验概率分布基础之上,但该方法仅考虑了样例最可能所属的类,忽略了属于其他类的比重     

为了解决上述问题,出现了 marginsampling 方法,在考虑了样例最可能所属类的同时还考虑了第二可能所属类

②、用距离表示不确定性程度

2.2.2、版本空间缩减标准

        所谓版本空间指的是一系列不同类型基准分类器的组合

        委员会查询(QBC)是基于该标准的典型算法,该算法先用已标注样例对2个及以上不同类型的基准分类器进行预训练,将其组成“评审委员会”,然后用该委员会成员对待测样例进行判别,选出各个委员对待标注样例判别结果最不一致的样例进行人工标注.

2.2.3、泛化误差缩减标准

最大程度地降低分类器的泛化误差,是基于该标准样例选择算法的最终目标

而后依次评估若将一个新样例加入到训练集可能会给分类器带来的泛化误差变化,并最终选出能使泛化误差缩减程度最大的样例进行人工标注

问题:

①时间复杂度高:针对每个侯选的未标注样例,都要评估其加入训练集后引起的

②应用面窄:鉴于其较高的时间复杂度,一般只适用于解决二类分类问题

③性价比低:训练样本集每增加1个样例,都需要对分类器进行重新训练,因此分类器的性能提升与训练成本不成正比,且分类器容易出现过拟合现象.

3、算法终止条件的设定及其改进

        主动学习就是通过迭代的方式,主动挑选价值量高的样例不断补充到已有训练样例集中,进而不断提升分类器性能。在此迭代过程中,何时终止迭代是关键.

考虑两点即可:

①达标即可:对于以指定分类精度为目标的应用,主动学习的训练过程只需使分类器达到预期的分类正确率即可,无需再补充样例继续训练.

②高性价比:对于以追求高分类精度为目标的应用,若继续学习给分类器带来的性能提升与继
续学习成本相比,已经可以忽略不计,则应停止迭代.

三、传统主动学习算法面临的问题及其改进

传统的主动学习算法在遇到多类分类、孤立点、训练集样例冗余、不平衡数据等问题时往往显得力不从心.如何应对上述挑战,不断提高主动学习算法的性能和鲁棒性,是目前尚未完全解决的难题.

这里主要提及训练集样例冗余问题不平衡数据问题

1、训练集样例冗余问题

在主动学习中,每次迭代挑选多少个样例标注补充到训练集中也是值得研究的问题.

为提高学习效率,主动学习的每次迭代一般采取批模式而非单个模式进行.

然而,批量选择样例容易出现样例相似度高的问题,比如在基于 BvSB的主动学习模型中,由于选择样例时仅考虑了其分类不确定性,未综合考虑其代表性,因此容易导冗余样例的出现

挑选样本时可能只考虑算法中定义的不确定性(有可能是距离、信息熵等来衡量),而没有考虑当前所挑选的样本是否与前几轮挑选的样本极其相似,这种样本如果再挑选加入训练集意义就非常小。

解决方案:

通过上述分析可知,主动学习中的样例选择度量主要分为2种

①不确定性度量、②差异性度量、③代表性度量

样例的不确定性一般可通过计算其信息熵获得

样例的代表性通常可根据其是否在聚类中心判断

样例的差异性则可通过计算余弦相似度或用高斯核函数获得

2、不平衡数据问题

为解决不平衡数据给主动学习模型造成的影响,KSVMactive主动学习算法、改进的加权支持向
量机模型、基于SVM 超平面位置校正的主动学习算法等各种解决方案应运而生

四、未来研究点

①如何将不确定性、代表性、多样性准则以及各类样例在数据集中的先验分布知识进行有机
融合,设计出鲁棒性更好的样例选择算法

②针对实际应用中不断出现的新增样例,如何实现主动学习与在线学习的有机结合,保持分类器不断进化

③深度学习模型是处理复杂分类问题的有效工具,如何借助深度学习模型提高主动学习算法的分类能力

④目前的主动学习研究主要基于封闭的静态环境,即影响模型学习的因素都是确定的;但环境因
素具有时空变异性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值