![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ML
Ein027
这个作者很懒,什么都没留下…
展开
-
反向传播算法
这篇博文尚未完成,暂时只做记录用,只有我自己看的懂,有时间继续完善Logistic分类(二,多)都涉及到求解参数,他们用的方法是损失函数对参数求导,并使用梯度下降求取损失函数最小值对应的参数,这种是误差**正向传播**,参数的求解还是用损失函数对参数求导,但是在神经网络中,如此多的节点求导带来巨大的计算冗余,于是产生了反向传递的方法。 首先对第 k 层第 j 个神经元关注这样一个值。定义: (原创 2017-03-14 17:37:59 · 594 阅读 · 0 评论 -
RELU
优点1:Krizhevsky et al. 发现使用 ReLU 得到的SGD的收敛速度会比 sigmoid/tanh 快很多(如上图右)。有人说这是因为它是linear,而且梯度不会饱和 优点2:相比于 sigmoid/tanh需要计算指数等,计算复杂度高,ReLU 只需要一个阈值就可以得到激活值。 缺点1: ReLU在训练的时候很”脆弱”,一不小心有可能导致神经元”坏死”。举个例子:由于ReL原创 2017-04-19 23:39:23 · 2574 阅读 · 0 评论 -
什么时候可以将神经网络的参数全部初始化为0?
用SGD训练神经网络时, 怎样决定初始化参数的方式? 主要有两个考虑点: 一: 最终是否能得到想要的学习结果, 即是否能得到一个符合预期目标的分类器;二: 训练时间, 好的参数初始化可以有效缩短训练时间, 如预训练.不加思考时, 将所有参数都初始化为0是最省力的做法. 有些情况下可行, 但大部分情况下会导致学习失败, 得不到可用的模型.先看最简单的例子: 用逻辑回归算法识别手写数字MNIST. 逻辑原创 2017-04-20 00:47:23 · 4780 阅读 · 0 评论