深度学习关于数据集的六大问题

最新推荐文章于 2024-02-13 00:36:33 发布

原创

最新推荐文章于 2024-02-13 00:36:33 发布 · 4.4k 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #tensorflow #神经网络 #机器学习

问题一：数据集太小

如果数据集太小，模型将没有足够样例概括来区分特征。这将使数据过拟合，从而出现训练误差低但测试误差高的情况。

解决方案1

尝试找到更多和原始数据集来源相同的数据。

注：如果图像很相似或者你追求的就是泛化，也可用其他来源的数据。
小贴士：这并非易事，需要你投入时间和经费。在开始之前，你要先分析确定需要多少额外数据。将不同大小的数据集得出的结果做比较，然后思考一下这个问题。

解决方案2
通过为同一张图像创建多个细微变化的副本来扩充数据，可以让你以非常低的成本创造很多额外的图像。你可以试着裁剪、旋转或缩放图片，也可以添加噪音、模糊、改变图片颜色或遮挡部分内容。
通过对图像的不同操作，扩充数据集

注：不管怎么操作，只需保证这些数据仍代表相同类就好了。虽然这种操作很厉害，但收集更多原始数据效果好。
小贴士：这种“扩充术”不适合所有问题，比如如果你想分类黄柠檬和绿柠檬，就不需要调颜色。

问题二：分类质量差

这是个简单但耗时的问题，需要你浏览一遍数据集确认每个样例的标签贴得对不对。

除此以外，一定要为你的分类选择合适的粒度（granularity）。基于要解决的问题，来增加或减少你的分类。

比如，要识别猫，你可以用全局分类器先确定它是动物，之后再用动物分类器确定它是一只小猫。一个大型的模型能同时做到这两点，但分起类来也更加困难。

问题三：数据集质量差

数据质量差会导致结果的质量差。
当你的数据集中有一些样例离达标很远，比如下面这几张图像。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。