在传统机器学习建模方法中,由于环境条件的限制,采集到的样本中通常无标签样本占比大,有标签样本占比少。为充分利用这些样本信息,半监督学习和主动学习算法相继提出并应用于图像分类[1-2]、故障检测[3-4]、工业过程建模[5-6]等领域。
传统的半监督学习算法通过对无标签样本进行标记以扩大有标签样本集,以此达到提升模型精度的目的[7-10]。区别于半监督学习算法仅利用无标签样本来提升模型性能,主动学习借助专家知识,对优选出的无标签样本进行人工标记[11-12],获取其真实标签,并将标记后的样本加入有标签样本集中重新训练模型。因此,主动学习算法的关键在于如何实现以最小的标记代价最大程度地提升模型的预测性能。
主动学习可划分为基于流和基于池[13-15]两类。基于流的主动学习通常需根据不同情况设置不同阈值实行较为困难。基于池的主动学习根据信息度量指标对无标签样本进行排序,挑选最具信息量的样本进行标记。通过设置合适的评价指标可有效完成对整个无标签样本集的筛选。因此,许多学者围绕基于池的主动学习进行研究,并提出多种行之有效的评价指标。如Ge等[16]提出将主动学习与高斯过程回归相结合,根据高斯过程回归的预测方差衡量样本的不确定性。Tang等[17]则利用核主成分分析进行特征提取并根据不同学习器的预测输出挑选无标签样本,但该类算法通常未能兼顾到其余无标签样本的分布信息。Douak等[18]则根据欧氏距离定义无标签样本与有标签样本集的差异,但该算法仅从无标签样本与有标签样本差异性角度进行选取,容易选出离群样本。离群无标签样本虽与有标签样本差异性较大但标记后甚至会降低模型性能。为避免选出离群无标签样本,Rodrigue等[19]将整个样本集划分为多个簇