深度神经网络训练的技巧

最新推荐文章于 2024-08-14 11:45:20 发布

陈龙CL

最新推荐文章于 2024-08-14 11:45:20 发布

阅读量1.5w

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/timeflyhigh/article/details/52015175

版权

本文介绍了深度神经网络训练的八大技巧，包括数据增广、预处理方法（如零均值化和归一化）、网络初始化策略、训练过程中的注意事项、激活函数的选择以及正则化方法。特别强调了数据增广在提升模型泛化能力中的作用，预处理中的零均值化和归一化的意义，以及避免使用全零初始化。同时，讨论了ReLU及其变种在解决梯度消失问题上的优势和不足。

摘要由CSDN通过智能技术生成

这里主要介绍8中实现细节的技巧或tricks：数据增广、图像预处理、网络初始化、训练过程中的技巧、激活函数的选择、不同正则化方法、来自于数据的洞察、集成多个深度网络的方法。

1. 数据增广

在不改变图像类别的情况下，增加数据量，能提高模型的泛化能力

自然图像的数据增广方式包括很多，如常用的水平翻转（horizontally flipping），一定程度的位移或者裁剪和颜色抖动（color jittering）。此外还可以尝试多种操作的组合，例如同时做旋转和随机尺度变换，此外还可以把每个patch中所有像素在HSV颜色空间中的饱和度和明度提升0.25-4次幂方，乘以0.7-1.4之间的一个因子，再加一个-0.1-0.1之间的值。同样你可以在色调通道（H）对每张图片或patch的所有像素增加一个-0.1-0.1之间的值。(未完待续。。。。。。。。)

2. 预处理

2.1最简单的预处理方法：零均值化（zero-center）和标准化（normalize）

2.1.1为什么要零均值化（Mean Subtraction）？

数据有过大的均值可能导致参数的梯度过大，如果有后续的处理，可能要求数据零均值，比如PCA。零均值化并没有消除像素之间的相对差异，人们对图像信息的摄取通常来自于像素之间的相对色差，而不是像素值的高低。

2.1.2为什么归一化(Normalization)？

归一化是为了让不同维度的数据具有相同的分布。

假如二维数据（X1,X2）两个维度都服从均值为零的正态分布，但是X1方差为100，X2方差为1。那么对（X1,X2）进行随机采样在二维坐标系中绘制的图像，应该是狭长的椭圆形。

对这些数据做特征提取会用到以下形式的表达式：S = w1*x1 + w2*x2 + b

那么参数W1，W2的梯度为：dS / dW1 = x1 dS/ dw2 = x2

由于x1与x2在分布规模上的巨大差异，w1与w2的导数也会差异巨大。此时绘制目标函数（不是S）的曲面图，就像一个深邃的峡谷，沿着峡谷方向变化的是w2，坡度很小&

最低0.47元/天解锁文章

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
深度神经网络训练的技巧

这里主要介绍8中实现细节的技巧或tricks：数据增广、图像预处理、网络初始化、训练过程中的技巧、激活函数的选择、不同正则化方法、来自于数据的洞察、集成多个深度网络的方法。1. 数据增广在不改变图像类别的情况下，增加数据量，能提高模型的泛化能力自然图像的数据增广方式包括很多，如常用的水平翻转（horizontally flipping），一定程度的位移或者裁剪和
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。