第12课：优化神经网络——网络初始化技巧与超参数调试

最新推荐文章于 2022-09-08 01:10:54 发布

红色石头Will

最新推荐文章于 2022-09-08 01:10:54 发布

阅读量765

点赞数

分类专栏：深度学习 PyTorch 极简入门文章标签：人工智能深度学习 PyTorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/red_stone1/article/details/108728755

版权

深度学习 PyTorch 极简入门专栏收录该内容

18 篇文章 40 订阅 ¥39.90 ¥99.00

订阅专栏

本文详细探讨了神经网络的优化技术，包括输入标准化、权重初始化、批归一化以及超参数调试。输入标准化通过减去特征均值和除以标准差来平衡特征分布，减少训练中的振荡。权重初始化对深层神经网络尤其关键，以避免梯度爆炸和消失，介绍了多种初始化方法。批归一化提高了模型的稳定性和训练速度，同时减少协变量漂移。超参数调试是神经网络优化的重要环节，通过网格搜索、随机搜索等方法寻找最佳组合。

摘要由CSDN通过智能技术生成

上一篇，我们主要介绍了神经网络中几种常见的梯度下降优化算法，包括 Mini-Batch、Momentum、Nesterov Momentum、AdaGrad、RMSprop、Adam、Learning Rate Decay ，并对各自特点进行了说明和对比。本文将重点讲解初始化神经网络的一些技巧以及如何高效进行超参数调试。

网络输入标准化

我们知道，神经网络的输入层是训练样本的各个特征值，而不同特征值的数值范围可能不同。例如训练样本数据中输入层特征是二维的：$[x_1,x_2]$。$x_1$ 的数值范围是 [0, 0.01]，$x_2$ 的数值范围是 [0, 100]，彼此相差了 10000 倍。$x_1$ 与 $x_2$ 之间分布极不平衡，会造成训练得到的权重 $W$ 数值差别很大，参数 $b$ 也是一样。这样的后果会造成运行梯度下降算法时，振荡较大，轻则影响训练速度，重则导致模型无法正确优化，无法获得优质解。

怎么理解呢？下面用图解的方式来说明。

enter image description here

上图显示了损失函数 $J$ 与 $W$ 和 $b$ 的凸函数关系。左边两张图没有进行输入标准化，可见 $J$ 与 $W$ 和 $b$ 呈类似椭圆的形状，这是因为彼此幅值范围不同。根据上文

了解本专栏

红色石头Will

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

红色石头Will 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。