- 主动学习与随机选择方案的比较:
- 选择相同多的标签,两种方案的Acc不同
- 达到相同Acc,查询标签个数之间的差异
主动学习代表性与不确定性之间的比较:
- 只用代表
- 只用不确定性
- 先考虑代表性,后考虑不确定性 (方案1-2可以由不同的代表性样本比例来调节获得,如100%用代表性,就退化为方案1)
- 同时考虑代表性与不确定性(一种方式是:仅查询top-k代表性样本,其中的不确定性强的标签。它可以减少训练集的大小,从而节约训练时间。当然,另一个目标是更好的精度)。从策略上来说,是雨露均沾好,还是重点培养好?有可能封闭与开放环境的答案不同。
雨露均沾方案,困难的标签都让专家提供,直接让专家把问题解决了。重点培养方案,更注重分类器的能力。
样本的完备性
选择的样本越少,样本的标签越完备
程序中,要把这些考虑写成参数,基础代码提供相应支持
- 没有代价敏感的对比方案,如何说我们方案好?
- 考虑代价的方案,不考虑代价的方案,前者比后者的总代价小;
- 考察停止查询条件是否合适:过早停止,与过晚停止,都导致代价更大。(缺乏有效的外部比较时,内部比较更为重要)