常见主动学习算法

来源:http://blog.sina.com.cn/s/blog_4c98b96001000959.html

按照对未标注数据的选择策略,可以把当前的主动学习算法大致分为两类
    (1)基于评委的方法 (committee-based methods)
首先用各种不同的学习器对样本进行标注,然后由标注人员对有争议的标注结
果作出最终判断。不同的学习器之间的分歧是由它们对样本标注结果预测的差异所
造成的。
   (2)基于置信度的方法 (certainty-based methods)
先由模型给出具有较低置信度的样本,再交给标注人员选择性地进行标
信度的计算通常是由学习器度量 n-最优(n-best)标注结果之间的差异得到的。
下面详细描绘一下基于评委的方法和基于置信度的方法的普遍流程。
    基于评委的方法:
    (1) 对于由 n 个未标注样本构成的样本组 B 中的每个样本 e,使用从先前标注样本中训练出来的 k 个模型对其进行标注,得到 k 个结果{L1,L2...Lk},通过{L1,L2...Lk},对每个 e 测量出具有争议的标注结果De ;
   (2) 从样本组 B 中选择出 m 个具有最高 De 值的样本交给标注人员进行标注。把人工标注好的样本加进训练样本库里;
   (3) 在扩大后的训练样本库的基础上,再重新得到 k 个模型。首先将语料库划分为连续的n个样本组,贯穿整个语料库,重复地在 n 个样本组中顺序地进行该过程。如果语料库不大,样本 n 正好等于语料库小,那么这个过程中的每一步都是在语料库的未标注样本中选择出 m 个全局最优的实例,如果语料库的大小比样本 n 大,那么这个过程是承接进行的。
   基于置信度的方法:
   (1)从先前标注的样本中训练出一个模型;
   (2)对于 N 个未标注的样本组中的每一个样本用模型对其进行标注,评估模型标
注的置信度;
   (3)从样本组中选择 m 个具有最低置信标注人员进行标
   (4)把新标注的样本加进训练语料中;
   (5)重复执行以上过程直到标注人员停止或未标注样本用尽。
    Hwa 运用基于置信度的方法从 Penn Treebank 语料库学习语法,把学习器对一个样本的标注结果的不确定性等同于该样本的“训练效用值”。如果学习器能够从大量的未标注语料中识别出具有较高训练效用值的样本的子集,标注人员就不需要花费时间去标注那些不富含信息的样本。基于置信度的方法的难点在于如何构造一种度量方法来评估学习器标注结果的置信度
  参考论文:基于半督导机器学习的分词算法的设计与实现

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值