Semi-supervised Learning

简单聊一下Semi-supervised Learning(SSL)分类时, 两个可用的方法: self-training与active learning.
当我们有标注的样本很少时, 训练的模型会不够准确. 这时我们可以尝试利用一下无标注的样本.

Self-training

  1. 用Labeled set训练模型.
  2. 用模型预测Unlabeled set.
    将预测结果中置信度最大的一个instance从Unlabeled set移动到Labeled set. 其label当然就是预测的这个结果.
  3. Goto 1 直到所有instance都移动到Labeled set中.

Active learning

  1. 用Labeled set训练模型.
  2. 用模型预测Unlabeled set.
    从预测结果中, 选取最不确信的一个(批), 拿来人工标注. 并移动到Labeled set中.
  3. Goto 1 直到所有instance都移动到Labeled set中.

其中第2步, 如何选择一批合适的instance来标注呢? 选最不确信(决策边界附近)的instance是一个方法. 同时也有很多其他方法, 比如训练多个模型, 选多个模型分歧最大的instance; 选取能使模型变化最大(或loss下降最多)的instance等. 详细总结可见Wikipedia.


参考资料:
Wikipedia: Active learning

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值