梯度更新方法总结

最新推荐文章于 2024-08-17 23:52:28 发布

怪兽丶

最新推荐文章于 2024-08-17 23:52:28 发布

阅读量6.4k

点赞数 1

分类专栏：神经网络

本文链接：https://blog.csdn.net/QQ2627866800/article/details/79351546

版权

神经网络专栏收录该内容

2 篇文章 0 订阅

订阅专栏

梯度更新

举例说明

对于逻辑归回梯度求解：

假设预测输出函数：
$h (x 0, x 1, . . ., x n) = \sum i = 0 n θ i x i + θ 0$ $h(x_0, x_1,...,x_n)=\sum_{i=0}^n \theta_i x_i+\theta_0$

i：一次输入中，第i个数据
实际输出： $y$
Cost Function函数：
$J (θ_{0}, θ_{1}, . . ., θ_{n}) = \frac{1}{m} \sum_{j = 0}^{m} (y^{(j)} - h^{(j)})^{2}$ $J(\theta_0,\theta_1,...,\theta_n)={1\over m}\sum_{j=0}^m(y^{(j)}-h^{(j)})^2$

j：第j个输入，总共输入m个数据
梯度求解的最终目的：令 $J$ 的值最小，根据微积分，只要求出 $J'={dJ \over d\theta }={\partial J \over \partial\theta_i} \rightarrow 0$

根据导数的定义： $J=J-J'$ ， $J$ 肯定是往函数最小值方向移动，即 $J'\rightarrow 0或J\rightarrow \min$
但是通常情况下，由于 $J$ 很难直接求解出来，换个思路就是通过更新参数 $\theta_i^{(j)}$ 来实现： $J'\rightarrow 0或J\rightarrow \min$
- 如何保证参数 $\theta_i$ 更新方向是 $J\rightarrow \min$ ？
  
  求解：
  $θ + i = θ i - Δ θ i$ $\theta_i^+=\theta_i-\Delta \theta_i$ 根据导数定义，如果保证 $\Delta \theta_i$ 和偏导数 $\partial J \over \partial \theta_i$ 数值正负号一致，上述参数 $\theta_i$ 更新后， $J\rightarrow \min$
- 如何确定每次参数要更新多少？
  
  对于参数更新公式：
  $θ + i = θ i - Δ θ i$ $\theta_i^+=\theta_i-\Delta \theta_i$ 只是保证了参数更新方向正确，为了防止一步跨度太大，最终 $J$ 的值一下子垮过min，从而造成抖动，需要引入学习效率 $\eta$ ，最终公式： $θ + i = θ i - η Δ θ i$ $\theta_i^+=\theta_i-\eta\Delta \theta_i$
  
  一般: $\eta \in [0,1]$
小结：
$θ + i = θ i - η Δ θ i$ $\theta_i^+=\theta_i-\eta\Delta \theta_i$ 该公式属于人造并非数学推导，主要是符合了参数更新方向、同时人为设定更新步长

PS：某个权重更新的值=0，即 ${\partial J \over \partial \theta_i}=0$ ，并不代表 ${dJ \over d\theta}=0$

常见梯度更新方法

参考：http://blog.csdn.net/boon_228/article/details/51721835

BGD

批次梯度下降

概念：每次更新所有样本数据来更新一次 $J(\theta)$ 的参数 $\theta$
预测函数： $h (x 0, x 1, . . ., x n) = \sum i = 0 n θ i x i + θ 0$ $h(x_0, x_1,...,x_n)=\sum_{i=0}^n \theta_i x_i+\theta_0$
对于cost function： $J (θ 0, θ 1, . . ., θ n) = 1 m \sum j = 0 m (y (j) - h (j)) 2$ $J(\theta_0,\theta_1,...,\theta_n)={1\over m}\sum_{j=0}^m(y^{(j)}-h^{(j)})^2$
有参数更新公式： $θ + i = θ i - η \partial J \partial θ i = θ i - η 2 m \sum j = 0 m (y (j) - h (j)) x i$ $\theta_i^+=\theta_i-\eta {\partial J \over \partial \theta_i}=\theta_i-\eta {2 \over m}\sum_{j=0}^m(y^{(j)}-h^{(j)})x_i$
这种参数更新方法是批量梯度更新，也就是每次更新 $\theta_i$ 都需要用到这样本里所有数据
小结：
- 优点：没更新一次，都用所有样本数据进行更新，这样就求解了全局最优解，同时通过计算公式可以发现可以并行实现；
- 缺点：由于每次更新都要计算该批次训练样本数据，如果批次样本数量太大，训练过程会很慢

SGD

随机梯度下降

概念：由于BGD每次更新都需要用到批次里所有样本数据，所以引入随机梯度下降概念；和BGD的区别在于，每次训练样本只输入一个，通过不断输入不同样本来修正参数，而BGD是一次输入所有样本来修正参数

区别	BGD	SGD
$h(x)$	$\sum_{i=0}^n \theta_i x_i+\theta_0$	$\sum_{i=0}^n \theta_i x_i+\theta_0$
$J(\theta)$	${1\over m}\sum_{j=0}^m(y^{(j)}-h^{(j)})^2$	${1\over 2}(y-h)^2$
每次输入样本数	所有	1个
循环次数	一次	=样本数量

小结：
- 优点：训练速度快；
- 缺点：准确度下降（噪音比BGD大），并非全局最优解；不易于并行实现；

MBGD

小批量梯度下降

概念：结合了BGD和SGD的优点：将所有的样本分割成很多小份，每次用这个小样本进行BGD训练，即：
```
for SGD:
    for BGD:
        ...
```
小结：
- 目前算法比较常用的梯度下降算法用MBGD，常用的小份样本数量有：64、10

常用梯度更新公式推导

神经网络常用梯度更新公式推导

Pooling

在池化层，设置了固定的w，所以参数不在此更新
主要类似设置了反向传播的阀门，保证反向阀门开合以及打开大小
这里的pooling方法是一般池化，即池化过程中，各个模块的边界不重叠。除了不重叠方法外，还有重叠池化、空金字塔池化

Max Pooling

概念：反向传播求导数过程类似分段函数求导

分段函数在分段点的导数必须分别求左右导数，而在非分段点的导数如常
有矩阵如下：

$147258369$ $\begin{matrix} 1&2&3\\ 4&5&6\\ 7&8&9\\ \end{matrix}$
求解整个矩阵的max_pooling，则：

$y = max (x 1, x 2, . . ., x 9) = 9$ $y=\max(x_1,x_2,...,x_9)=9$
反向传播时：

∂y∂xn={0,xn非最大值1,xn是最大值

这个公式可以通过如下代码的条件语句实现：
```
if x_n == y:
    y_d = 1
else:
    y_d = 0
```
根据反向传播公式的链式原理：

$w + = w - η Δ w = w - η \partial J \partial w | x = x 0 = w - η \partial J \partial O u t 1 \partial O u t 1 \partial N e t 1 . . . \partial N e t i \partial w | x = x 0$ $\begin{align} w^+ &= w-\eta\Delta w \notag \\ &= w-\eta {\partial J \over \partial w}|_{x=x_0} \notag \\ &= w-\eta {\partial J \over \partial Out_1 }{\partial Out1 \over \partial Net_1}...{\partial Net_i \over \partial w}|_{x=x_0} \notag \\ \end{align}$

如果pooling层对 $x_i$ 偏导数为0，通过 $x_i$ 向前的参数修正值都恒为0，即不传播；
小结：
对于max pooling参数只通过max值那个点反向传播，在上述例子中，即通过 $x_9$ 向前修正参数，其他值均认为是无用数据丢弃；

Mean Pooling

概念：求解n x m矩阵的上所有点的均值
有矩阵如下：

$147258369$ $\begin{matrix} 1&2&3\\ 4&5&6\\ 7&8&9\\ \end{matrix}$
求解整个矩阵的mean pooling，则：
$y = ( x 1 + x 2 + \dots + x n ) n = 5$ $y={(x_1+x_2+\cdots+x_n) \over n}=5$
反向传播时：
$\partial y \partial x n = 1 n = 1 9$ ${\partial y \over \partial x_n}={1 \over n}={1 \over 9}$
小结：
对于mean pooling ，反向传播过程中，只是给传播链条添加一个常数 $1 \over n$ ，即作为固定权重使用

激活函数

同Pooling，没有需要更新的权重，起到了传播过程中的阀门作用

ReLU

公式：
$y = {0, x \leq 0 x, x > 0$ $y=\begin{cases} 0, x \leq 0 \\ x, x > 0 \\ \end{cases}$
反向传播时：
$d y d x = {0, x \leq 0 1, x > 0$ ${d y \over d x}=\begin{cases} 0, x \leq 0 \\ 1, x > 0 \\ \end{cases}$
小结：
对于输出值： $x \leq 0$ 的神经元，流经ReLU层后的反向传播，该神经元以及前面对应的参数都会被丢弃，即不再更新参数

Sigmoid

公式：
$y = 1 1 + e - x$ $y={1 \over {1+e^{-x}}}$
反向传播时：
$d y d x = y (1 - y)$ ${d y \over d x}=y(1-y)$

tanh

公式：
$y = e x - e - x e x + e - x$ $y={e^x-e^{-x} \over e^x+e^{-x}}$
反向传播时：
$d y d x = 2 (1 - y) (1 + y)$ ${dy \over dx}=2(1-y)(1+y)$

soft Max

公式：

$y i = e x i \sum n i = 0 e x i$ $y_i={e^{x_i} \over \sum_{i=0}^n e^{x_i}}$

$x_i$ ：第i个输入值
$y_i$ ： $x_i$ 对应的输出值
反向传播时：
$\partial y i \partial x i = y i (1 - y i)$ ${\partial y_i \over \partial x_i}=y_i(1-y_i)$

Loss函数

交叉熵

理论上均方差 $C={(y-a)^2 \over n}$ 值小的程度，作为判断神经元预测结果和实际结果的偏离程度很好理解
但是，实际问题中，针对分类问题，交叉熵的表现比均方差来的好

设经过soft Max的神经元输出：
$预测 z 样本 1 (k = 1) 样本 2 (k = 2) 样本 3 (k = 2) 类别 1 (i = 1) 0.9 0.1 0.1 类别 2 (i = 2) 0.1 0.9 0.1 类别 3 (i = 3) 0.1 0.1 0.9$ $\begin{array}{c|lll} 预测z&类别1(i=1)&类别2(i=2)&类别3(i=3)\\ \hline 样本1(k=1)&0.9&0.1&0.1\\ 样本2(k=2)&0.1&0.9&0.1\\ 样本3(k=2)&0.1&0.1&0.9\\ \end{array}$
实际结果：
$实际 y 样本 1 (k = 1) 样本 2 (k = 2) 样本 3 (k = 3) 类别 1 (i = 1) 100 类别 2 (i = 2) 010 类别 3 (i = 3) 001$ $\begin{array}{c|lll} 实际y&类别1(i=1)&类别2(i=2)&类别3(i=3)\\ \hline 样本1(k=1)&1&0&0\\ 样本2(k=2)&0&1&0\\ 样本3(k=3)&0&0&1\\ \end{array}$
交叉熵公式：

$C k = - 1 n \sum i = 1 n [y (k) i ln z (k) i + (1 - y (k) i) ln (1 - z (k) i)], y (k) i \in {0, 1} C 1 \approx 0.035 C 2 \approx 0.035 C 3 \approx 0.035 C = 1 m \sum k = 1 m (C k) \approx 0.035$ $\begin{align} &C_k=-{1 \over n} \sum_{i=1}^n[y_i^{(k)} \ln z_i^{(k)}+(1-y_i^{(k)}) \ln (1-z_i^{(k)})], \ y_i^{(k)} \in \{0,1\} \notag \\ &C_1 \approx 0.035 \notag \\ &C_2 \approx 0.035 \notag \\ &C_3 \approx 0.035 \notag \\ &C={1 \over m}\sum_{k=1}^m(C_k) \approx 0.035 \notag \\ \end{align}$

$C_k$ ：第k个样本的交叉熵
$z_i$ ：某个样本的第i个类别预测结果
$y_i$ ：某个样本的第i个类别实际结果
反向传播时， $y_i$ 是已知值：
$\partial C \partial z i = \partial C \partial C k \partial C k z i = 1 m (- y ( k ) i n z ( k ) i), y (k) i \in {0, 1}$ $\begin{align} {\partial C \over \partial z_i}&={\partial C \over \partial C_k}{\partial C_k \over z_i} \notag \\ &={1 \over m}(-{y_i^{(k)} \over n z_i^{(k)}}), \ y_i^{(k)} \in \{0,1\} \notag \\ \end{align}$