数据不足时的处理方法

在机器学习中,绝大部分模型都需要大量的数据进行训练和学习,然而在实际应用中经常会遇到训练不足的问题,比如图像分类,作为计算机视觉最基本的任务之一,其目标是将每一副图像划分到制定类别集合中的一个或者多个类别中,当训练一个图像分类模型时,如果训练样本比较少,该如何处理。

一个模型所能提供的信息一般来源于两个方面,一是训练数据中蕴含的信息;二是模型形成过程中(包括构造学习和推理等),人们提供的先验信息。当训练数据不足的时候,说明模型从原始数据中获取的信息比较少,这种情况下要想要保证模型的效果,就需要更多的先验信息。先验信息可以作用的模型上,例如让模型采用特定的内在结构,条件假设或添加其他一些约束条件;先验信息也可以直接施加再数据集上,即根据特定的先验信息去调整,变换或者扩充训练数据,让其展现出更多的、更有用的信息。以利于后期模型的训练和学习。

降低过拟合的风险的措施有:

简化模型(将非线性模型简化为线性模型),添加约束项以缩小假设空间(如L1/L2正则项),集成学习,Dropout超参数等。还有基于数据的方法,主要是通过数据扩充。

在图像分类中增加数据集的方法有:

(1)一定程度内的随机旋转,平移,缩放,裁剪,填充,左右翻转等。

(2)对图像中的像素添加噪声扰动,比如椒盐噪声࿰

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值