吴恩达深度学习03-2.2 清楚标注错误的数据

最新推荐文章于 2024-01-21 10:41:23 发布

CtrlZ1

最新推荐文章于 2024-01-21 10:41:23 发布

阅读量1.1k

点赞数 1

分类专栏：吴恩达深度学习课程文章标签：深度学习吴恩达

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41076797/article/details/111572226

版权

吴恩达深度学习课程专栏收录该内容

15 篇文章 1 订阅

订阅专栏

目录

训练集标注错误
- 随即错误
- 规律性错误
测试集或者验证集出现错误
其他需要注意的原则

训练集标注错误

有时候，我们的训练集数据标签并不是正确的，而是存在一些错误的标签的，对于其不同的错误情况，我们有不同的处理措施。

随即错误

即训练集中标注错误的数据是随机的，没有特定的规律可言，在这种情况下，我们可以不做处理。因为神经网络对于随机误差的鲁棒性是很高的。

规律性错误

这种情况往往是由于某种有规律的错误标注导致的。
举个例子，倘若你的神经网络要识别一张图像中有没有猫，而训练集中所有图像中有白色的狗的图像都被错误标记为含有猫了（标签为1，不含有猫标签为0）。那这样的话对于神经网络的影响是非常大的，因为这个神经网络会将几乎所有含有白色的狗的图像识别为含有猫，这个错误是很致命的。
这种情况下就需要对于错误进行排查并解决，往往通过观察标记出错的样例进行判断并解决。

测试集或者验证集出现错误

这种情况下要进行采样判断。
具体方法如下，比如我们随机选取100个算法判断出错的样例，我们挨个筛选，看看因为验证集或者测试集标签出错而导致的误差占总误差的比例，如果占的比例很小，则优先处理其他影响算法准确性的问题，相反如果占的比例很大，那么久优先处理这些错误标签数据。

其他需要注意的原则

如果你确定要修正测试集或者验证集，请务必对于另一方也做同样的修改，因为要保证验证集和测试集的分布是一样的，不然你就无法通过验证集和测试集的得分区别来进行相应的措施了。
倘若人力允许的话，或许你也应该关注一下算法预测正确的那些数据，因为可能是由于标签错误所以你预测对了，当然这样的话人力耗费巨大，但也应该考虑这个措施在当时的情境下是否必要。
另外保持分布一致的原则其实也应该作用于训练集，但是训练集数据众多，处理较为麻烦，其实相对来说保持一致的重要性没有开发集和验证集保持一致那么重要。

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
1
评论
吴恩达深度学习03-2.2 清楚标注错误的数据

目录训练集标注错误随即错误规律性错误测试集或者验证集出现错误其他需要注意的原则训练集标注错误有时候，我们的训练集数据标签并不是正确的，而是存在一些错误的标签的，对于其不同的错误情况，我们有不同的处理措施。随即错误即训练集中标注错误的数据是随机的，没有特定的规律可言，在这种情况下，我们可以不做处理。因为神经网络对于随机误差的鲁棒性是很高的。规律性错误这种情况往往是由于某种有规律的错误标注导致的。举个例子，倘若你的神经网络要识别一张图像中有没有猫，而训练集中所有图像中有白色的狗的图像都被
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CtrlZ1 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。