梯度下降与反向传播详解

最新推荐文章于 2024-08-17 23:32:55 发布

hao_zhyn

最新推荐文章于 2024-08-17 23:32:55 发布

阅读量1.3w

点赞数 15

分类专栏： ML 文章标签：机器学习函数梯度下降

本文链接：https://blog.csdn.net/honghu110/article/details/55211228

版权

ML 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

梯度下降

对于机器学习中其中一个主要的步骤是构造Cost函数，当构建好Cost函数后需要对Cost函数进行优化，使得Cost值最小。
* 策略1：随机寻找（不太实用）
最直接粗暴的方法就是，我们尽量多地去试参数，然后从里面选那个让损失函数最小的参数组，最为最后的W。
* 策略2：随机局部搜索
在现有的参数W基础上，随机搜索一下周边的参数，查看有没有比现在更好的W，然后用新的W替换现有的W，不断迭代。
* 策略3：梯度下降
找到最陡的方向，逐一小步，然后再找到当前位置最陡的下山方向，再迈一小步…

这里写图片描述

以线性回归为例，对于假设函数（Hypothesis）：

h θ (x) = θ 0 + θ 1 x

$h_\theta(x)=\theta_0+\theta_1x$
构造Cost函数：

J (θ 0, θ 1) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
优化目标是最小化：

J (θ 0, θ 1)

$J(\theta_0,\theta_1)$
高等数学中我们学过求函数最小值可以通过求解导数，对

J(θ0,θ1) $J(\theta_0,\theta_1)$ 求偏导数：

\partial J ( θ 0 , θ 1 ) \partial θ 0 = 1 m \sum i + 1 m (θ 0 + θ 1 x - y)

$\frac{\partial J(\theta_0,\theta_1) }{\partial \theta_0}=\frac {1}{m} \sum_{i+1}^m(\theta_0+\theta_1x-y)$

= 1 m \sum i + 1 m (h θ (x) - y)

$\quad\quad\quad=\frac {1}{m} \sum_{i+1}^m(h_\theta(x)-y)$

\partial J ( θ 0 , θ 1 ) \partial θ 1 = 1 m \sum i + 1 m (θ 0 + θ 1 x - y) x (i)

$\frac{\partial J(\theta_0,\theta_1) }{\partial \theta_1}=\frac {1}{m} \sum_{i+1}^m(\theta_0+\theta_1x-y)x^{(i)}$

= 1 m \sum i + 1 m (h θ (x) - y) x (i)

$\quad\quad\quad=\frac {1}{m} \sum_{i+1}^m(h_\theta(x)-y)x^{(i)}$

梯度下降（Gradient descent algorithm）
repeat until convergence{
$\theta_0:= \theta_0-\alpha \frac{ \partial J(\theta_0,\theta_1)}{\partial \theta_0}$
$\theta_1:= \theta_1-\alpha \frac{ \partial J(\theta_0,\theta_1)}{\partial \theta_1}$
}
这里写图片描述

原理：对于某个点 $(x_0,y_0)$ ，其导数表示在该点的瞬时变化率，也就是在在该点的斜率，表示从该点向其他点下滑的最快梯度。
具体推导见：http://blog.csdn.net/honghu110/article/details/55052909

反向传播

反向传播算法是神经网络中最有效的算法，其主要的思想是将网络最后输出的结果计算其误差，并且将误差反向逐级传下去。
方向传播运用的是链式求导的基本思想（隐函数求导），例如：

函数 $u=\phi (t)$ 在点t处可导， $z=f(u)$

$d z d t = \partial z \partial u \times d u d t$ $\frac{dz}{dt}=\frac{\partial z}{\partial u} \times \frac{du}{dt}$

举个简单的例子对于如下图所示的神经网络：
这里写图片描述

假设第一个神经元的表达式为 $f_1(x)=w_0+w_1x$ , 第二个神经元的表达式为 $f_2(y)=\theta_0+\theta_1y$ ,那么实际上第一个神经元的输出是第二个神经元的输入，也就是第二个表达式中的 $y=f_1(x)$ 。对于训练这个模型首先采用前向传播算法(也就是按步骤计算得出输出结果):
对于输入 $x_1$ 计算：

w 0 + w 1 x 1 = f 1 (x 1)

$w_0+w_1x_1=f_1(x_1)$

θ 0 + θ 1 f 1 (x 1) = f 2 (f 1 (x 1))

$\theta_0+\theta_1f_1(x_1)=f_2(f_1(x_1))$
假设输出结果计算后得到

y′1 $y_1'$
构造代价函数为：

C = 1 2 | | y 1 - y' 1 | | 2

$C=\frac{1}{2}||y_1-y_1'||^2$
注：

y1 $y_1$ 表示分类，

y′1 $y_1'$ 表示预测值

计算误差之后需要将误差反向传播回去，首先计算最后一层的误差，更新 $\theta_1,\theta_0$
$\theta_0:= \theta_0-\alpha \frac{ \partial C}{\partial \theta_0}$
$\theta_1:= \theta_1-\alpha \frac{ \partial C}{\partial \theta_1}$
然后再更新前一个节点的 $w_1,w_0$
$w_0=w_0-\alpha \frac{\partial C}{\partial f_2} \times \frac{\partial f_2}{\partial f_1}\times \frac{\partial f_1}{\partial w_0}$
$w_1=w_1-\alpha \frac{\partial C}{\partial f_2} \times \frac{\partial f_2}{\partial f_1}\times \frac{\partial f_1}{\partial w_1}$
采用梯度下降依次逐层更新知道最终收敛为止。