深度学习关于数据集的六大问题

问题一:数据集太小

如果数据集太小,模型将没有足够样例概括来区分特征。这将使数据过拟合,从而出现训练误差低但测试误差高的情况。

解决方案1

尝试找到更多和原始数据集来源相同的数据。

  • 注:如果图像很相似或者你追求的就是泛化,也可用其他来源的数据。
  • 小贴士:这并非易事,需要你投入时间和经费。在开始之前,你要先分析确定需要多少额外数据。将不同大小的数据集得出的结果做比较,然后思考一下这个问题。

解决方案2
通过为同一张图像创建多个细微变化的副本来扩充数据,可以让你以非常低的成本创造很多额外的图像。你可以试着裁剪、旋转或缩放图片,也可以添加噪音、模糊、改变图片颜色或遮挡部分内容。
通过对图像的不同操作,扩充数据集

  • 注:不管怎么操作,只需保证这些数据仍代表相同类就好了。虽然这种操作很厉害,但收集更多原始数据效果好。
  • 小贴士:这种“扩充术”不适合所有问题,比如如果你想分类黄柠檬和绿柠檬,就不需要调颜色。

问题二:分类质量差

这是个简单但耗时的问题,需要你浏览一遍数据集确认每个样例的标签贴得对不对。

除此以外,一定要为你的分类选择合适的粒度(granularity)。基于要解决的问题,来增加或减少你的分类。

比如,要识别猫,你可以用全局分类器先确定它是动物,之后再用动物分类器确定它是一只小猫。一个大型的模型能同时做到这两点,但分起类来也更加困难。

问题三:数据集质量差

数据质量差会导致结果的质量差。
当你的数据集中有一些样例离达标很远,比如下面这几张图像。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值