谷歌提出新分类损失函数:将噪声对训练结果影响降到最低
训练数据集里的标签通常不会都是正确的,比如图像分类,如果有人错误地把猫标记成狗,将会对训练结果造成不良的影响。
如何在不改变训练样本的情况下,尽可能降低这类噪声数据对机器学习模型的影响呢?
最近,谷歌提出了一个新的损失函数,解决了机器学习算法受噪声困扰的一大问题。
逻辑损失函数的问题
机器学习模型处理带噪声训练数据的能力,在很大程度上取决于训练过程中使用的损失函数。
通常我们用来训练图像分类的是逻辑损失函数(Logistic loss),但是它存在两大缺点,导致在处理带噪声的数据时存在以下不足:
**
谷歌提出新分类损失函数:将噪声对训练结果影响降到最低
**
1、远离的异常值会支配总体的损失
逻辑损失函数对异常值非常敏感。这是因为损失函数的没有上界,而错误的标记数据往往远离决策边界。
这就导致异常大的错误数值会拉伸决策边界,对训练的结果造成不良影响,并且可能会牺牲其他的正确样本。
2、错误的标签的影响会扩展到分类的边界上
神经网络的输出是一个矢量激活值,一般对于