《Neural network and deep learning》学习笔记（一）

最新推荐文章于 2024-04-22 16:57:33 发布

小胖蹄儿

最新推荐文章于 2024-04-22 16:57:33 发布

阅读量876

点赞数

分类专栏： Deep Learning 文章标签：深度学习

本文链接：https://blog.csdn.net/cheese_pop/article/details/52033934

版权

Deep Learning 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Using neural nets to recognize handwritten digits

Learning with gradient descent

对于一个网络，它的代价函数：

C (w, b) \equiv 1 2 n \sum x ∥ y (x) - a ∥ 2

$\begin{eqnarray} C(w,b) \equiv \frac{1}{2n} \sum_x \| y(x) - a\|^2\end{eqnarray}$
其中，w和b为权重和偏置，n为输入样本总数，y(x)为输入样本x所属的类别，也就是groundtruth，a为经过网络计算后得到的向量。另外，C可以称作是二次代价函数，或者均方误差（MSE）。
我们要做的就是尽可能找到一组权重和偏置(w,b)来最小化代价函数，也就是说让预测值越接近groundtruth越好。训练算法采用梯度下降法（gradient descent）。
最小化

C(v) $C(v)$ ，而

v=v1,v2,… $v = v_1,v_2, \ldots$ ，其中用

v $v$ 来表示w和b。假设代价函数C有两个分量，

v1和v2 $v1和v2$
这里写图片描述

我们要做的就是找到曲面的最低点，因此要得到C的梯度信息。

Δ C \approx \partial C \partial v 1 Δ v 1 + \partial C \partial v 2 Δ v 2

$\begin{eqnarray} \Delta C \approx \frac{\partial C}{\partial v_1} \Delta v_1 + \frac{\partial C}{\partial v_2} \Delta v_2\end{eqnarray}$
注意啊，这里是变化值，不是梯度啊！
然后将上式中的导数部分提出来作为一个向量有：

(∂C∂v1,∂C∂v2)T $\left(\frac{\partial C}{\partial v_1}, \frac{\partial C}{\partial v_2}\right)^T$ ，那么有：

\nabla C \equiv (\partial C \partial v 1, \partial C \partial v 2) T

$\begin{eqnarray} \nabla C \equiv \left( \frac{\partial C}{\partial v_1}, \frac{\partial C}{\partial v_2} \right)^T\end{eqnarray}$ 注意这里就是梯度信息了啊！然后

v1和v2 $v_1和v_2$ 也提出来作为一个向量：

Δv≡(Δv1,Δv2)T $\Delta v \equiv (\Delta v_1, \Delta v_2)^T$ ，然后见证奇迹的时刻到了！

Δ C \approx \nabla C \cdot Δ v

$\begin{eqnarray} \Delta C \approx \nabla C \cdot \Delta v\end{eqnarray}$ 再然后令

Δv=−η∇C $\begin{eqnarray}\Delta v = -\eta \nabla C\end{eqnarray}$ ，得到：

Δ C \approx - η \nabla C \cdot \nabla C = - η | \nabla C | 2

$\Delta C \approx -\eta\nabla C \cdot \nabla C = -\eta |\nabla C|^2$ 其中，

η $\eta$ 就是所谓的学习率啦（learning rate）。这样，由于

∥∇C∥2≥0 $\| \nabla C \|^2 \geq 0$ ，而且

η $\eta$ 为正数，那么就保证了

ΔC≤0 $\Delta C \leq 0$ 。

v \to v' = v - η \nabla C

$\begin{eqnarray} v \rightarrow v' = v -\eta \nabla C\end{eqnarray}$ 按照这种方式逼近全局最小值。
关于learning rate的选取，如果过大会导致

ΔC>0 $\Delta C > 0$ ，如果过小就会导致

Δv $\Delta v$ 变化的太慢。

小胖蹄儿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Neural network and deep learning》学习笔记（一）

Using neural nets to recognize handwritten digitsLearning with gradient descent对于一个网络，它的代价函数：C(w,b)≡12n∑x∥y(x)−a∥2\begin{eqnarray} C(w,b) \equiv \frac{1}{2n} \sum_x \| y(x) - a\|^2\end{eqnarray} 其中
复制链接

扫一扫