![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Neural Network & Deep Learning
陈小起
这个作者很懒,什么都没留下…
展开
-
设定超参数的启发式想法
宽的策略: 通过简化网络来加速实验进行更有意义的学习。 例如,MNIST分类问题。可以丢开训练和验证集合中除了0和1的那些图像,然后试着训练一个网络来区别0和1。 不仅仅问题比1-个分类的情况简化了,同样也会减少80&的训练数据,这样就给出了5倍的加速。学习速率: (代价函数震荡的原因:如果eta太大的话,步长也会变大可原创 2017-09-18 17:06:21 · 720 阅读 · 0 评论 -
神经元
S型神经元:tanh神经元:修正线性神经元: sigmoid神经元在饱和时停止学习的问题,就是σ′降低了梯度,减缓了学习。tanh神经元也有类似的问题。对比一下,提高RLU的带权输入并不会导致其饱和,所以就不存在前面那样学习速度下降。另外,当带权输入时负数的时候,梯度就消失了,所以神经元就完全停止了学习。原创 2017-09-19 10:32:04 · 400 阅读 · 0 评论 -
深度神经网络-消失的梯度问题和爆炸的梯度问题
根本问题其实并非是消失的梯度问题或者爆炸的梯度问题,而是在前面的层上的梯度是来自后面的层上项的乘积。当存在过多的层次时,就出现了内在本质上的不稳定场景。唯一让所有层都接近相同的学习速度的方式是所有这些项的乘积都能得到一种平衡。如果没有某种机制或者更加本质的保证来达成平衡,那网络就很容易不稳定了。简而言之,真实的问题就是神经网络受限于不稳定梯度的问题。所以,如果问使用标准的基于梯度的学习原创 2017-09-20 10:25:28 · 413 阅读 · 0 评论