采用双层优选策略的主动学习算法及其应用

在传统机器学习建模方法中,由于环境条件的限制,采集到的样本中通常无标签样本占比大,有标签样本占比少。为充分利用这些样本信息,半监督学习和主动学习算法相继提出并应用于图像分类[1-2]、故障检测[3-4]、工业过程建模[5-6]等领域。

传统的半监督学习算法通过对无标签样本进行标记以扩大有标签样本集,以此达到提升模型精度的目的[7-10]。区别于半监督学习算法仅利用无标签样本来提升模型性能,主动学习借助专家知识,对优选出的无标签样本进行人工标记[11-12],获取其真实标签,并将标记后的样本加入有标签样本集中重新训练模型。因此,主动学习算法的关键在于如何实现以最小的标记代价最大程度地提升模型的预测性能。

主动学习可划分为基于流和基于池[13-15]两类。基于流的主动学习通常需根据不同情况设置不同阈值实行较为困难。基于池的主动学习根据信息度量指标对无标签样本进行排序,挑选最具信息量的样本进行标记。通过设置合适的评价指标可有效完成对整个无标签样本集的筛选。因此,许多学者围绕基于池的主动学习进行研究,并提出多种行之有效的评价指标。如Ge等[16]提出将主动学习与高斯过程回归相结合,根据高斯过程回归的预测方差衡量样本的不确定性。Tang等[17]则利用核主成分分析进行特征提取并根据不同学习器的预测输出挑选无标签样本,但该类算法通常未能兼顾到其余无标签样本的分布信息。Douak等[18]则根据欧氏距离定义无标签样本与有标签样本集的差异,但该算法仅从无标签样本与有标签样本差异性角度进行选取,容易选出离群样本。离群无标签样本虽与有标签样本差异性较大但标记后甚至会降低模型性能。为避免选出离群无标签样本,Rodrigue等[19]将整个样本集划分为多个簇

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宋罗世家技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值