Active Learning主动学习

主动学习是应对有类标签数据稀缺的一种方法,通过让算法选择最具信息量的样本进行人工标注,以提高模型精度。其关键在于找到模型最可能出错的样本。主动学习通常包括初始化和循环查询阶段,不断迭代提升分类器性能。常见的主动学习策略有Uncertainty Sampling、Query-By-Committee和Expected-Error-Reduction。
摘要由CSDN通过智能技术生成

主动学习(Active Learning)
在某些情况下,没有类标签的数据相当丰富而有类标签的数据相当稀少,并且人工对数据进行标记的成本又相当高昂。在这种情况下,我们可以让学习算法主动地提出要对哪些数据进行标注,之后我们要将这些数据送到砖家那里让他们进行标注,再将这些数据加入到训练样本集中对算法进行训练,提高模型的精确度。这一过程叫做主动学习。

主动学习那些比较难的信息量大的样本。而这些样本是基于模型预测不确定性而选择的,或者在总体预测发散,这些方法的关键点就是找到当前模型最可能出错的样本,这样在标记和加入到训练数据集之后,模型对于不可见数据上的这些错误变得更加有效而快速。使得更小的子集来达到模型最理想的性能。

AL基本构成

五个组件进行建模
A=(C,L,S,Q,U)
其中 C 为一个或一组分类器;L 为一组已标注的训练样本集;Q为查询函数,用于在未标注的样本中查询信息量大的样本;U 为整个未标注样本集;S 为督导者,可以对未标注样本进行标注。

AL算法主要分为两阶段

  1. 初始化阶段,随机从未标注样本中选取小部分,由督导者标注,作为训练集 建立初始分类器模型;
  2. 循环查询阶段,S从未标注样本集 U中,按照某种查询标准 Q,选取一定的未标注样本进行标注,并加到训练样本集 L 中,

    重新训练分类器,直至达到训练停止标准为止。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值