Backpropagation Algorithm 的梯度

最新推荐文章于 2021-09-16 11:45:30 发布

jiongjiongai

最新推荐文章于 2021-09-16 11:45:30 发布

阅读量184

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/phoenix198425/article/details/79575852

版权

机器学习专栏收录该内容

28 篇文章 0 订阅

订阅专栏

损失函数 $\operatorname {J} \left (\mathbf {\theta}\right )$

$\operatorname {J} \left (\mathbf {\theta}\right ) = - \dfrac {1} {m} \sum \limits_{i = 1} ^{m} \sum \limits_{k = 1} ^{K} \left [ y ^{\left (i\right )} _{k} \ln \left ( h _{\mathbf {\theta}} \left (X ^{\left (i\right )} \right )_k \right ) + \left (1 - y ^{\left (i\right )} _{k} \right ) \ln \left ( 1 - h _{\mathbf {\theta}}\left (X ^{\left (i\right )} \right )_k \right ) \right ]$
$+ \dfrac {\lambda} {2m} \sum \limits_{l = 1} ^{L - 1} \sum \limits_{i = 1} ^{s_{l + 1}} \sum \limits_{j = 1} ^{s_l} \left ({ {\theta ^{\left (l\right )} _{i, j}} } \right ) ^2$

$\lambda = 0$ 时的单样本损失函数 $\operatorname {cost} \left (\mathbf {\theta} ; X, Y\right )$

$\lambda = 0$ 时，单一样本 $X = \begin{pmatrix} x_1 \\ \vdots \\ x_{s_1} \end{pmatrix} , Y = \begin{pmatrix} y_1 \\ \vdots \\ y_K \end{pmatrix}$ 的损失函数：
$\operatorname {cost} \left (\mathbf {\theta} ; X, Y\right ) = - \sum \limits_{k = 1} ^{K} \left [ y _{k} \ln \left ( h _{\mathbf {\theta}} \left (X \right )_k \right ) + \left (1 - y _{k} \right ) \ln \left ( 1 - h _{\mathbf {\theta}}\left (X \right )_k \right ) \right ]$

令 $a ^{\left (1\right )} = X$
$Z ^{\left (l + 1\right )} = {\theta ^{\left (l\right )} } {a ^{\left (l\right )}}, 1 \le l \le L - 1$
$a ^{\left (l\right )} = g \left (Z ^{\left (l\right )} \right ), 2 \le l \le L,$ 其中函数 $g$ 是 Logistic 函数。
则 $a ^{\left (L\right )} = h _{\mathbf {\theta}} \left (X\right )$
于是 $\operatorname {cost} \left (\mathbf {\theta} ; X, Y\right ) = - \sum \limits_{k = 1} ^{K} \left [ y_{k} \ln a ^{\left (L\right )} _{k} + \left (1 - y_{k} \right ) \ln \left (1 - a ^{\left (L\right )} _{k} \right ) \right ]$
则 $\operatorname {J} \left (\mathbf {\theta}\right ) = \dfrac {1} {m} \sum \limits_{i = 1} ^{m} \operatorname {cost} \left (\mathbf {\theta} ; X ^{\left (i\right )}, Y ^{\left (i\right )}\right ) + \dfrac {\lambda} {2m} \sum \limits_{l = 1} ^{L - 1} \sum \limits_{i = 1} ^{s_{l + 1}} \sum \limits_{j = 1} ^{s_l} \left ({ {\theta ^{\left (l\right )} _{i, j}} } \right ) ^2$

$\operatorname {cost} \left (\mathbf {\theta} ; X, Y\right )$ 关于 $Z ^{\left (l\right )}$ 的梯度

令 $\delta ^{\left (l\right )} = \dfrac {\partial } {\partial Z ^{\left (l\right )} } \operatorname {cost} \left (\mathbf {\theta} ; X, Y\right ) = \begin{pmatrix} \dfrac {\partial } {\partial z ^{\left (l\right )} _{1}} \operatorname {cost} \left (\mathbf {\theta} ; X, Y\right ) \\ \vdots \\ \dfrac {\partial } {\partial z ^{\left (l\right )} _{s_l}} \operatorname {cost} \left (\mathbf {\theta} ; X, Y\right ) \end{pmatrix}, 2 \le l \le L,$
则 $\delta ^{\left (l\right )} = \begin{cases} a ^{\left (L\right )} - Y, & l = L, \\ \left ( {\theta ^{\left (l\right )} } \right ) ^{\intercal} \delta ^{\left (l + 1\right )} \text { } .* \text { } a ^{\left (l\right )} \text { } .* \text { } \left (1 - {a ^{\left (l\right )}} \right ), & 2 \le l \le L - 1,\end{cases}$
其中运算符 $\text { } .* \text { }$ 为 element-wise 的乘积，如 $\begin{pmatrix} x_1 \\ \vdots \\ x_n \end{pmatrix} \text { } .* \text { } \begin{pmatrix} y_1 \\ \vdots \\ y_n \end{pmatrix} = \begin{pmatrix} x_1 y_1 \\ \vdots \\ x_n y_n \end{pmatrix}$ 。

证明

命题等价于：
$\delta ^{\left (l\right )} _{j} = \begin{cases} a ^{\left (L\right )} _{j} - y_{j}, & l = L, \\ \left [ \sum \limits_{i = 1} ^{s_{l + 1}} { {\theta ^{\left (l\right )} _{i, j}} } \delta ^{\left (l + 1\right )} _{i} \right ] \cdot \delta ^{\left (l\right )} _{j} \left (1 - a ^{\left (l\right )} _{j} \right ), & 2 \le l \le L - 1,\end{cases} 1 \le j \le s_l$

由 $\begin{cases} Z ^{\left (l + 1\right )} = {\theta ^{\left (l\right )} } {a ^{\left (l\right )}}, & 1 \le l \le L - 1, \\ {a ^{\left (l\right )}} = g \left (Z ^{\left (l\right )} \right ), & 2 \le l \le L, \end{cases}$ 得：
$\begin{cases} \dfrac {\partial z ^{\left (l + 1\right )} _{i}} {\partial a ^{\left (l\right )} _{j}} = { {\theta ^{\left (l\right )} _{i, j}} }, 1 \le l \le L - 1, \\ \dfrac {\operatorname {d} a ^{\left (l\right )} _{j}} {\operatorname {d} z ^{\left (l\right )} _{j}} = g'\left (z ^{\left (l\right )} _{j}\right ) = a ^{\left (l\right )} _{j} \left (1 - a ^{\left (l\right )} _{j} \right ), 2 \le l \le L, \end{cases}$
因此 $\dfrac {\partial z ^{\left (l + 1\right )} _{i}} {\partial z ^{\left (l\right )} _{j}} = { {\theta ^{\left (l\right )} _{i, j}} } a ^{\left (l\right )} _{j} \left (1 - a ^{\left (l\right )} _{j} \right ), 2 \le l \le L - 1,$
所以 $\delta ^{\left (l\right )} _{j} = \sum \limits_{i = 1} ^{s_{l + 1}} \delta ^{\left (l + 1\right )} _{i} \dfrac {\partial z ^{\left (l + 1\right )} _{i}} {\partial z ^{\left (l\right )} _{j}}$
$= \sum \limits_{i = 1} ^{s_{l + 1}} \delta ^{\left (l + 1\right )} _{i} { {\theta ^{\left (l\right )} _{i, j}} } a ^{\left (l\right )} _{j} \left (1 - a ^{\left (l\right )} _{j} \right )$
$= \left [ \sum \limits_{i = 1} ^{s_{l + 1}} { {\theta ^{\left (l\right )} _{i, j}} } \delta ^{\left (l + 1\right )} _{i} \right ] \cdot \delta ^{\left (l\right )} _{j} \left (1 - a ^{\left (l\right )} _{j} \right ), 2 \le l \le L - 1,$

由于 $\dfrac { \partial} { \partial a ^{\left (L\right )} _{k} } \operatorname {cost} \left (\mathbf {\theta} ; X, Y\right ) = - \left [ y_{k} \dfrac {1} {a ^{\left (L\right )} _{k}} - \left (1 - y_{k} \right ) \dfrac {1} {1 - a ^{\left (L\right )} _{k}} \right ]$
                                            $= - \left ( y_{k} - a ^{\left (L\right )} _{k} \right ) \dfrac {1} { a ^{\left (L\right )} _{k} \left (1 - a ^{\left (L\right )} _{k} \right )}$
                                            $=\left ( a ^{\left (L\right )} _{k} - y_{k} \right ) \dfrac {1} { a ^{\left (L\right )} _{k} \left (1 - a ^{\left (L\right )} _{k} \right )}, 1 \le k \le s_L = K$
因此 $\left (\delta ^{\left (L\right )} \right )_{j} = \dfrac { \partial} { \partial a_{L,j} } \operatorname {cost} \left (\mathbf {\theta} ; X, Y\right ) \dfrac {\operatorname {d} a ^{\left (L\right )} _{j}} {\operatorname {d} z_{L, j}}$
                      $= \left ( a ^{\left (L\right )} _{j} - y_{j} \right ) \dfrac {1} { a ^{\left (L\right )} _{j} \left (1 - a ^{\left (L\right )} _{j} \right )} a ^{\left (L\right )} _{j} \left (1 - a ^{\left (L\right )} _{j} \right )$
                      $= a ^{\left (L\right )} _{j} - y_{j}, 1 \le j \le s_L$
因此，命题成立。

$\operatorname {cost} \left (\mathbf {\theta} ; X, Y\right )$ 关于 $\mathbf {\theta}$ 的梯度

$\dfrac {\partial } {\partial { {\theta ^{\left (l\right )} _{i, j}} }} \operatorname {cost} \left (\mathbf {\theta} ; X, Y\right ) = \delta ^{\left (l + 1\right )} _{i} a ^{\left (l\right )} _{j}, 1 \le l \lt L - 1$

证明

由 $\dfrac {\partial z ^{\left (l + 1\right )} _{i}} {\partial { {\theta ^{\left (l\right )} _{i, j}} }} = a ^{\left (l\right )} _{j}, 1 \le l \le L - 1,$
得 $\dfrac {\partial } {\partial { {\theta ^{\left (l\right )} _{i, j}} }} \operatorname {cost} \left (\mathbf {\theta} ; X, Y\right ) = \delta ^{\left (l + 1\right )} _{i} \dfrac {\partial z ^{\left (l + 1\right )} _{i}} {\partial { {\theta ^{\left (l\right )} _{i, j}} }} = \delta ^{\left (l + 1\right )} _{i} a ^{\left (l\right )} _{j}, 1 \le l \lt L - 1$

推论

$\dfrac {\partial } {\partial {\theta ^{\left (l\right )} }} \operatorname {cost} \left (\mathbf {\theta} ; X, Y\right ) = \delta ^{\left (l + 1\right )} \left ( {a ^{\left (l\right )}} \right ) ^{\intercal}, 1 \le l \lt L - 1$

损失函数 $\operatorname {J} \left (\mathbf {\theta}\right )$ 关于 $\mathbf {\theta}$ 的梯度

$\forall t \in \mathbb N, 1 \le t \le m,$
令 $a ^{\left (t, 1\right )} = X ^{\left (t\right )},$
$Z ^{\left (t, l + 1\right )} = {\theta ^{\left (l\right )} } a ^{\left (t, l\right )}, 1 \le l \le L - 1,$
$a ^{\left (t, l\right )} = g \left (Z ^{\left (t, l\right )} \right ), 2 \le l \le L,$
则 $a ^{\left (t, L\right )} = h _{\mathbf {\theta}} \left (X ^{\left (t\right )} \right )$
令 $\delta ^{\left (t, l\right )} = \dfrac {\partial } {\partial Z ^{\left (t, l\right )} } \operatorname {cost} \left (\mathbf {\theta} ; X ^{\left (t\right )}, Y ^{\left (t\right )}\right ) = \begin{pmatrix} \dfrac {\partial } {\partial z ^{\left (t, l\right )} _{1}} \operatorname {cost} \left (\mathbf {\theta} ; X ^{\left (t\right )}, Y ^{\left (t\right )}\right ) \\ \vdots \\ \dfrac {\partial } {\partial z ^{\left (t, l\right )} _{s_l}} \operatorname {cost} \left (\mathbf {\theta} ; X ^{\left (t\right )}, Y ^{\left (t\right )}\right ) \end{pmatrix}, 2 \le l \le L,$
则 $\delta ^{\left (t, l\right )} = \begin{cases} a ^{\left (t, L\right )} - Y ^{\left (t\right )}, & l = L, \\ \left ( {\theta ^{\left (l\right )} } \right ) ^{\intercal} \delta ^{\left (t, l + 1\right )} \text { } .* \text { } a ^{\left (t, l\right )} \text { } .* \text { } \left (1 - a ^{\left (t, l\right )} \right ), & 2 \le l \le L - 1,\end{cases}$
于是 $\dfrac {\partial } {\partial { {\theta ^{\left (l\right )} _{i, j}} }} \operatorname {cost} \left (\mathbf {\theta} ; X ^{\left (t\right )}, Y ^{\left (t\right )}\right ) = \delta ^{\left (t, l + 1\right )} _{i} a ^{\left (t, l\right )} _{j} , 1 \le l \lt L - 1$
因此 $\ \dfrac {\partial } {\partial { {\theta ^{\left (l\right )} _{i, j}} }} \operatorname {J} \left (\mathbf {\theta}\right ) = \dfrac {1} {m} \sum \limits_{t = 1} ^{m} \dfrac {\partial } {\partial { {\theta ^{\left (l\right )} _{i, j}} }} \operatorname {cost} \left (\mathbf {\theta} ; X ^{\left (t\right )}, Y ^{\left (t\right )}\right ) + \dfrac {\lambda} {m} { {\theta ^{\left (l\right )} _{i, j}} }$
$= \dfrac {1} {m} \sum \limits_{i = 1} ^{m} \delta ^{\left (t, l + 1\right )} _{i} a ^{\left (t, l\right )} _{j} + \dfrac {\lambda} {m} { {\theta ^{\left (l\right )} _{i, j}} }, 1 \le l \le L - 1$

推论

$\ \dfrac {\partial } {\partial {\theta ^{\left (l\right )} }} \operatorname {J} \left (\mathbf {\theta}\right ) = \dfrac {1} {m} \sum \limits_{i = 1} ^{m} \delta ^{\left (t, l + 1\right )} \left ( a ^{\left (t, l\right )} \right ) ^{\intercal} + \dfrac {\lambda} {m} \theta ^{\left (l\right )}, 1 \le l \le L - 1$