Pool-Based Sampling
Pool-based sampling 是一种主动学习(Active Learning)方法,与流式选择性采样不同,它假设有一个预先定义的未标注样本池,算法从中选择最有价值的样本进行标注,以提升模型的性能。这种方法广泛应用于需要人工标注的场景,例如文本分类、图像识别等。
核心思想
- 预先准备一个 未标注数据池(Unlabeled Data Pool)。
- 使用初始标注数据训练一个模型。
- 算法根据特定的选择策略,从未标注池中挑选最有价值的数据点。
- 将选中的数据点交给 Oracle(标注者)进行标注。
- 用新标注的数据更新模型。
- 重复上述过程,直到达到停止条件(如标注预算耗尽或模型精度满足要求)。
主要步骤
-
初始化:
- 准备一个初始的小型标注数据集,用于训练初始模型。
- 定义一个未标注样本池。
-
选择样本:
- 基于选择策略,从未标注样本池中选出最有助于提升模型性能的样本。
-
Oracle 标注:
- 将选中的样本交由 Oracle(人工或自动标注系统)标注。