按照对未标注数据的选择策略,可以把当前的主动学习算法大致分为两类 (1)基于评委的方法 (committee-based methods) 首先用各种不同的学习器对样本进行标注,然后由标注人员对有争议的标注结 果作出最终判断。不同的学习器之间的分歧是由它们对样本标注结果预测的差异所 造成的。 (2)基于置信度的方法 (certainty-based methods) 先由模型给出具有较低置信度的样本,再交给标注人员选择性地进行标注。置 信度的计算通常是由学习器度量 n-最优(n-best)标注结果之间的差异得到的。 下面详细描绘一下基于评委的方法和基于置信度的方法的普遍流程。 基于评委的方法: (1) 对于由 n 个未标注样本构成的样本组 B 中的每个样本 e,使用从先前标注样本中训练出来的 k 个模型对其进行标注,得到 k 个结果{L1,L2...Lk},通过{L1,L2...Lk},对每个 e 测量出具有争议的标注结果De ; (2) 从样本组 B 中选择出 m 个具有最高 De 值的样本交给标注人员进行标注。把人工标注好的样本加进训练样本库里; (3) 在扩大后的训练样本库的基础上,再重新得到 k 个模型。首先将语料库划分为连续的n个样本组,贯穿整个语料库,重复地在 n 个样本组中顺序地进行该过程。如果语料库不大,样本 n 正好等于语料库的大小,那么这个过程中的每一步都是在语料库的未标注样本中选择出 m 个全局最优的实例,如果语料库的大小比样本 n 大,那么这个过程是承接进行的。 基于置信度的方法: (1)从先前标注的样本中训练出一个模型; (2)对于 N 个未标注的样本组中的每一个样本用模型对其进行标注,评估模型标 注的置信度; (3)从样本组中选择 m 个具有最低置信度的样本交给标注人员进行标注; (4)把新标注的样本加进训练语料中; (5)重复执行以上过程直到标注人员停止或未标注样本用尽。 Hwa 运用基于置信度的方法从 Penn Treebank 语料库学习语法,把学习器对一个样本的标注结果的不确定性等同于该样本的“训练效用值”。如果学习器能够从大量的未标注语料中识别出具有较高训练效用值的样本的子集,标注人员就不需要花费时间去标注那些不富含信息的样本。基于置信度的方法的难点在于如何构造一种度量方法来评估学习器标注结果的置信度。 参考论文:基于半督导机器学习的分词算法的设计与实现