很多数据集会出现标签错误或者标签缺失得情况,本文中说得方法可以粗略估计标签在每个class错误得比率 已经 如何应用这个比率去更做一个更好的模型。
首先我们要明白什么是翻转率:
第一个正确标签为+1 但是数据集中出现得标签为-1,这种问题可以用rho+1 表示
第二个正确表情为-1, 但是数据集中出现标签为+1,用rho-1表示
公式中第一个概率Dp 表示dirty probability 意思是样本有错误标签得概率情况下每个sample被正确预测的概率,D为无标签错误情况下每个sample被正确预测的概率。 这两个概率可以被粗略估计出来后就可以用数学方法去解这个公式得出rho+1 和rho-1.
至于初略估计两个概率的方法,可以用adampling(我上一篇文章)做出干净probability table,用logisitc或者SVM去做dirty probability table。
有了翻转率之后, 我们可以