![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
Fight_Bro
这个作者很懒,什么都没留下…
展开
-
梯度消失与梯度爆炸
https://blog.csdn.net/qq_25737169/article/details/78847691为什么要使用梯度更新规则目前深度学习方法中,深度网络比浅层网络具有更好的效果,但是目前优化神经网络的方法基本都是基于反向传播的思想,即根据损失函数的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。这样做的原因我认为如下:深度网络由许多非线性层堆叠而来,每一层非线性层...转载 2019-10-29 13:49:50 · 76 阅读 · 0 评论 -
BatchNorm
https://www.cnblogs.com/guoyaohua/p/8724433.html深入理解Batch Normalization标准化来自于论文**《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》**首先在机器学习领域有一个很重要的假设...原创 2019-10-29 13:49:24 · 153 阅读 · 0 评论 -
Digit Recognizer
batch梯度下降算法梯度下降算法并不能保证被优化的函数达到全局最优解,只有当损失函数为凸函数时才能保证达到了全局最优解。除了不能达到全局最优解,梯度下降算法的另外一个问题就是计算时间太长,因为要在全部训练数据上最小化损失,在每一轮的迭代过程中都要计算全部数据上的损失函数。随机梯度下降(SGD)为了加速训练过程,可以使用随机梯度下降算法(Stochastic Gradient Descent...原创 2019-10-25 17:28:59 · 375 阅读 · 0 评论