深度学习实战（十五）——数据不够时训练深度学习的方法

马大哈先生

于 2019-04-07 16:09:03 发布

阅读量5.2k

点赞数 1

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37764129/article/details/89069667

版权

在深度学习中，当数据量有限时，常用方法包括数据增强、正则化、dropout、无监督预训练和模型剪枝。数据增强通过几何变换等方式扩充训练集，正则化通过L2范数抑制过拟合，dropout随机关闭神经元以提高泛化能力，无监督预训练利用自编码器等进行预训练，模型剪枝减少网络冗余。早期停止策略可在验证集精度不再提升时终止训练，防止过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习大牛吴恩达曾经说过：做 AI 研究就像造宇宙飞船，除了充足的燃料之外，强劲的引擎也是必不可少的。假如燃料不足，则飞船就无法进入预定轨道。而引擎不够强劲，飞船甚至不能升空。类比于 AI，深度学习模型就好像引擎，海量的训练数据就好像燃料，这两者对于 AI 而言同样缺一不可。

　　随着深度学习技术在机器翻译、策略游戏和自动驾驶等领域的广泛应用和流行，阻碍该技术进一步推广的一个普遍性难题也日渐凸显：训练模型所必须的海量数据难以获取。

　　以下是一些当前比较流行的机器学习模型和其所需的数据量，可以看到，随着模型复杂度的提高，其参数个数和所需的数据量也是惊人的。

在深度学习中，当数据量不够大时候，常常采用下面5中方法：

1. 人工增加训练集的大小.

通过平移, 翻转, 加噪声等方法从已有数据中创造出一批"新"的数据.也就是Data Augmentation（数据扩充）

这是解决过拟合最有效的方法，只要给足够多的数据，让模型「看见」尽可能多的「例外情况」，它就会不断修正自己，从而得到更好的结果：

如何获取更多数据，可以有以下几个方法：

从数据源头获取更多数据：这个是容易想到的，例如物体分类，我就再多拍几张照片好了；但是，在很多情况下，大幅增加数据本身就不容易；另外，我们不清楚获取多少数据才算够；
根据当前数据集估计数据分布参数，使用该分布产生更多数据：这个一般不用，因为估计分布参数的过程也会代入抽样误差。
数据增强（Data Augmentation）：通过一定规则扩充数据。如在物体分类问题里，物体在图像中的位置、姿态、尺度，整体图片明暗度等都不会影响分类结果。我们就可以通过图像平移、翻转、缩放、切割等手段将数据库成倍扩充；

不同的任务背景下, 我们可以通过图像的几何变换, 使用以下一种或多种组合数据增强变换来增加输入数据的量. 这里具体的方法都来自数字图像处理的内容, 相关的知识点介绍, 网上都有, 就不一一介绍了．

旋转 | 反射变换(Rotation/reflection):

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。