该方法使用了Uncertainty Sampling 中的Least Confidence策略。
基础分类器使用了三个不同类型的分类器进行集成。集成过程使用了后验概率加权的方法。使用每个子分类器在验证集上的测试精度作为权重。
最终得到的集成后验概率不已经是小于1的(已经不能称作后验概率了)。
方法简单巧妙。但是主动学习场景限制了验证集的来源。
作者直接使用训练集作为验证集,使用经验误差(确切说是经验准确率)作为权重计算途径。这里有些许牵强,作者也大胆承认了!
这里再次强调做主动学习的,基础分类器尽量使用无超参的分类模型。
因为主动学习场景下标记样本极少或开始就没有。
即便是标记过程中也可能没有条件分配出验证集并通过交叉验证的方式获取合适的超参数。
尽量避免正则化,避免非线性kernel。如果不可避免使用了,那就fix一个value。
众多过往主动学习论文提到了超参数通过tuning获得最佳值!这是非常H&M的!