训练集标注错误
- 有时候,我们的训练集数据标签并不是正确的,而是存在一些错误的标签的,对于其不同的错误情况,我们有不同的处理措施。
随即错误
- 即训练集中标注错误的数据是随机的,没有特定的规律可言,在这种情况下,我们可以不做处理。因为神经网络对于随机误差的鲁棒性是很高的。
规律性错误
- 这种情况往往是由于某种有规律的错误标注导致的。
- 举个例子,倘若你的神经网络要识别一张图像中有没有猫,而训练集中所有图像中有白色的狗的图像都被错误标记为含有猫了(标签为1,不含有猫标签为0)。那这样的话对于神经网络的影响是非常大的,因为这个神经网络会将几乎所有含有白色的狗的图像识别为含有猫,这个错误是很致命的。
- 这种情况下就需要对于错误进行排查并解决,往往通过观察标记出错的样例进行判断并解决。
测试集或者验证集出现错误
- 这种情况下要进行采样判断。
- 具体方法如下,比如我们随机选取100个算法判断出错的样例,我们挨个筛选,看看因为验证集或者测试集标签出错而导致的误差占总误差的比例,如果占的比例很小,则优先处理其他影响算法准确性的问题,相反如果占的比例很大,那么久优先处理这些错误标签数据。
其他需要注意的原则
- 如果你确定要修正测试集或者验证集,请务必对于另一方也做同样的修改,因为要保证验证集和测试集的分布是一样的,不然你就无法通过验证集和测试集的得分区别来进行相应的措施了。
- 倘若人力允许的话,或许你也应该关注一下算法预测正确的那些数据,因为可能是由于标签错误所以你预测对了,当然这样的话人力耗费巨大,但也应该考虑这个措施在当时的情境下是否必要。
- 另外保持分布一致的原则其实也应该作用于训练集,但是训练集数据众多,处理较为麻烦,其实相对来说保持一致的重要性没有开发集和验证集保持一致那么重要。