目录
(1) 不确定性采样(Uncertainty Sampling)
引言
在机器学习中,训练数据的数量和质量对于模型的性能至关重要。然而,标签数据的获取往往耗时、昂贵,尤其在医学影像分析、无人驾驶等领域标注代价更高。主动学习(Active Learning)提供了一种更高效的学习方法:通过主动选择数据来标注,让模型以较少的数据获得更高的精度。在本篇博客中,我们将深入探讨主动学习的概念、常用方法及应用场景。
1. 主动学习的基本概念
主动学习是一种学习范式,与传统的被动学习不同。在被动学习中,模型被动地接受并学习大量随机选取的已标注数据;而主动学习则让模型在训练过程中“主动”选择最有信息量的样本进行标注,从而在最小的标注成本下达到最优的模型性能。
主动学习的主要目标是找到“有价值”的数据点,这些数据点可以显著提升模型性能。这样,模型可以在有限的数据下快速学习并获得不错的效果。
2. 主动学习的三大采样策略
主动学习通过选择那些对模型性能提升最有帮助的数据点。在选择数据点的过程中,常用的策略有以下几种:
(1) 不确定性采样(Uncertainty Sampling)
不确定性采样基于模型的不确定性来选择数据点。通常会选取模型预测置信度最低的数据点进行标注,因为这些数据是模型当前“最不确定”的部分,学习这些数据可以最大限度地提升模型性能。
- 最大熵(Maximum Entropy):选择预测熵值最高的样本,反映了模型对该样本最不确定。
- 最小置信度(Least Confidence):选择模型预测置信度最低的样本。
- 最大边际(Margin Sampling):选择模型对前两类预测的置信度差最小的样本,适用于二分类问题。
(2) 多样性采样(Diversity Sampling)
多样性采样确保选取的数据样本具有代表性,而不是集中于模型“迷惑”的某些特定样本。在这种方法中,选取的数据通常是那些相互之间相似度较低的数据点。这样可以确保模型在全局上得到良好的训练,而不是仅在某一子集上表现良好。
常见