深度学习与计算机视觉系列(8)_神经网络训练与注意点

最新推荐文章于 2024-08-10 18:31:21 发布

寒小阳

最新推荐文章于 2024-08-10 18:31:21 发布

阅读量5.4w

点赞数 55

分类专栏：计算机视觉深度学习与计算机视觉文章标签：计算机视觉深度学习神经网络训练参数调整

本文链接：https://blog.csdn.net/han_xiaoyang/article/details/50521064

版权

本文介绍了神经网络训练中的关键环节，包括梯度检验、训练前检查、训练过程监控及参数更新策略。强调了梯度检验的正确方法，如使用中心化公式和相对误差。训练前要检查损失值，训练过程中关注损失、准确度变化及权重更新比例。参数更新时，介绍了随机梯度下降、动量更新和衰减学习率的重要性。此外，建议进行模型融合以优化性能。

摘要由CSDN通过智能技术生成

作者：寒小阳
时间：2016年1月。
出处：http://blog.csdn.net/han_xiaoyang/article/details/50521064
声明：版权所有，转载请联系作者并注明出处

1.训练

在前一节当中我们讨论了神经网络静态的部分：包括神经网络结构、神经元类型、数据部分、损失函数部分等。这个部分我们集中讲讲动态的部分，主要是训练的事情，集中在实际工程实践训练过程中要注意的一些点，如何找到最合适的参数。

1.1 关于梯度检验

之前的博文我们提到过，我们需要比对数值梯度和解析法求得的梯度，实际工程中这个过程非常容易出错，下面提一些小技巧和注意点：

使用中心化公式，这一点我们之前也说过，使用如下的数值梯度计算公式：
$\frac{df(x)}{dx} = \frac{f(x + h) - f(x - h)}{2h} \hspace{0.1in} \text{(好的形式)}$
而不是
$\frac{df(x)}{dx} = \frac{f(x + h) - f(x)}{h} \hspace{0.1in} \text{(非中心化形式，不要用)}$
即使看似上面的形式有着2倍的计算量，但是如果你有兴趣用把公式中的 $f (x + h)$ 和 $f (x - h)$ 做泰勒展开的话，你会发现上面公式出错率大概是 $O(h^2)$ 级别的，而下面公式则是 $O (h)$ ，注意到h是很小的数，因此显然上面的公式要精准得多。