Deep学习笔记

最新推荐文章于 2024-04-02 23:13:43 发布

明星海棠果

最新推荐文章于 2024-04-02 23:13:43 发布

阅读量161

点赞数

分类专栏： Deep Learning

本文链接：https://blog.csdn.net/u011271476/article/details/98650223

版权

3 篇文章 0 订阅

订阅专栏

初始化策略
随机数大小对网络训练的成功与否具有非常大的影响。
RELU 和 tanh不同激活函数具有不同的初始化方法。具体参考p52
梯度消失，梯度爆炸问题：
神经网络中，因为梯度通过计算图反向传播，错误的梯度非常常见，要么梯度消失，要么梯度爆炸。
处理梯度消失问题的方法主要有：
1.更改初始化方式。
2.缩放输入值的范围。
3.改变学习速率来控制。
4.选择归一激活函数，batch normalization. 每个mini-batch 均值为0，方差为1.
处理梯度爆炸问题的方法：
梯度裁剪：如果梯度参数的二范式超过某个阈值，就裁剪掉。
学习率
学习率调参方法：
1.范围[0,1]
2.选择【0-1】之间的一个学习率 0.001，0.01，0.1等
3.观测loss值，如果停止更新，则降低学习率选择。这样可以提高模型的精度。
minibatch
选择合理大小的minibatch，可以考虑GPU/cpu 内存大小。正常选择的是2的次幂batch。

关注