neural networks and deep learning第二章读书笔记

最新推荐文章于 2022-10-24 10:34:12 发布

ErinLiu虎哥的铲屎员

最新推荐文章于 2022-10-24 10:34:12 发布

阅读量303

点赞数 1

分类专栏：《神经网络与深度学习》文章标签：神经网络与深度学习

本文链接：https://blog.csdn.net/liuerin/article/details/89036781

版权

《神经网络与深度学习》专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第二章

- - - 第二章：反向传播算法如何工作

一切为了数据挖掘的准备

第二章：反向传播算法如何工作

反向传播的核心是一个对代价函数C关于任何权重w或偏置b的偏导数的表达式，即如何让通过改变权重和偏置来改变整个网络的行为。

2.1 神经网络中使用矩阵快速计算输出的方法

单个元素计算
- $w_{jk}^l$ 表示从第(l-1)层的第k个神经元到第l增的第j个神经元的链接上的权重
- $b_j^l$ 表示第l层第j个神经元的偏置
- $a_j^l$ 表示第l层第j个神经元的激活值
- 得出： $a_j^l = \sigma (\sum_k{w_{jk}^la_k^{l-1}}+b_j^l)$
- $z_j^l = \sum_k{w_{jk}^la_k^{l-1}}+b_j^l$ 表示第l层第j个神经元的激活函数的带权输入
矩阵表示
- $w^l$ 每一层l的权重矩阵。形状为l层神经元数 x l-1层神经元数
- $b^l$ 每一层l的偏置，形状为1 x l层神经元数
- $a^l$ 激活向量，每层的输出
- 得到： $a^l = \sigma (w^la^{l-1} + b^l)$
- $z^l \equiv w^la^{l-1} + b^l$ 中间量,称 $z^l$ 为l层神经元的带权输入

2.2关于代价函数C的两个假设

代价函数: $\frac{1}{2n}\sum_x{||y(x)-a^L(x)||^2}$ ，n是训练样本的总数，求和运算遍历了每个训练样本x,y(x)是实际输出，L表示网络层数， $a^L(x)$ 是当输入为x时的网络输出的激活向量值。

假设1：代价函数可以写成一个每个训练样本x的代价函数 $C_x$ 的均值。 $C=\frac{1}{n}\sum_xC_x$ , $C_x = \frac{1}{2}||y-a^L||^2$ .做假设的原因：反向传播是对一个独立样本计算了 $\partial{C_x}/\partial{w}$ , $\partial{C_x}/\partial{b}$ ，然后在所有样本上平均获得 $\partial{C}/\partial{w}$ , $\partial{C}/\partial{w}$
假设2:代价可以写成神经网络的输出 $a^L$ 的函数： $cost C=C(a^L)$ . $C=\frac{1}{2}||y-a^L||=\frac{1}{2}\sum_j{(y_j-a_j^L)^2}$

2.3Hadamard乘积， $s\bigodot t$

同型矩阵同位置按元素乘积

2.4 反向传播的四个基本方程和推导

定义 $\delta_j^l \equiv \frac{\partial C}{\partial Z_j^l}$ ，称为第l层第j个神经元上的误差

2.4.1 输出层误差的方程 $\delta^L$ ，

每个元素定义如下：
$\delta_j^L = \frac{\partial C}{\partial a_j^L}\sigma^\prime(Z_j^L)$
点乘形式： $\delta^L=\nabla_aC \bigodot \sigma^\prime(Z^L)=(a^l-y)\bigodot \sigma^\prime(Z^L)$ , $\nabla_aC$ 被定义为一个向量。其中 $\sigma^\prime(Z^L)$ 是简单的将求导运算 $\frac{\partial y}{\partial x} = \frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}})$ 运用到了Z向量(维度为n,n=l层神经元数)每个数中，n x 1。而非矩阵求导 $\frac{\partial{a_j^L}}{\partial{Z_j^L}}$ ，结果为n x n,非对角线上的值都为0
神经元级的证明
$\frac{\partial{C}}{\partial{Z_j^L}}=\frac{\partial{C}}{\partial{a_j^L}}\frac{\partial{a_j^L}}{\partial{Z_j^L}}=\frac{\partial{C}}{\partial{a_j^L}}\frac{\partial{\sigma(Z_j^L)}}{\partial{Z_j^L}}=\frac{\partial C}{\partial a_j^L}\sigma^\prime(Z_j^L)$
其中：
$\frac{\partial C}{\partial a_j^L}=\frac{\partial \frac{1}{2}\sum_j{(y_j-a_j^L)^2}}{\partial a_j^L}=a_j^L-y_j$
$y=\frac{1}{1+e^{-x}}$

$\frac{\partial y}{\partial x} = \frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}})=y(1-y)$

矩阵级证明：
$\frac{\partial{C}}{\partial{Z^L}}=\frac{\partial{a^L}}{\partial{Z^L}}\frac{\partial{C}}{\partial{a^L}}$
$\frac{\partial{a^L}}{\partial{Z^L}}$ 的维度是nxn,除对角线外的值都是0，对角线上的值为 $\sigma^\prime(Z^L)$ ； $\frac{\partial{C}}{\partial{a^L}}$ 的维度是n x 1,值为 $a^L-y)$ ；求解结果的维度为 nxn x nx1= nx1。等效于 $(a^l-y)\bigodot \sigma^\prime(Z^L)$

2.4.2 使用下一层的误差 $\delta^{l+1}$ 来表示当前层的误差 $\delta^l$

$\delta^l=((w^{l+1})^T\delta^{l+1}) \bigodot \sigma^\prime(z^l)$
将这个公式看作沿着网络的反向移动误差，使用l+1层的误差 $\delta^{l+1}$ 通过l层的激活函数 $\sigma (z^l)$ 反向传递回来，度量l层的误差 $\delta^l$ .这样先计算 $\delta^L$ ,再计算 $\delta^{L-1}$ ，一步步反向传播完整个网络

矩阵级证：
$Z^{l+1} = w^{l+1}\sigma(Z^L)+b^{l+1}$

$\frac{\partial{Z^{L+1}}}{\partial{Z^L}}= \frac{\partial \sigma(Z^L)}{\partial{Z^L}}(w^{l+1})^T$

$\frac{\partial C}{\partial Z^L}=\frac{\partial Z^{L+1}}{\partial Z^L}\frac{\partial C}{\partial Z^{L+1}} = \frac{\partial \sigma(Z^L)}{\partial{Z^L}}(w^{l+1})^T\frac{\partial C}{\partial Z^{L+1}}$
$\frac{\partial \sigma(Z^L)}{\partial{Z^L}}$ 的维度是nxn,除对角线外的值都是0，对角线上的值为 $\sigma^\prime(Z^L)$ ， $w^{l+1})^T$ 的维度为nxm(设l+1层神经元个数为m)； $\frac{\partial C}{\partial Z^{L+1}}$ 的维度为mx1；运算结果的维度nxn x nxm x mx1=nx1。等价于 $\delta^l=((w^{l+1})^T\delta^{l+1}) \bigodot \sigma^\prime(z^l)$ .

2.4.3 代价函数关于网络中任意偏置的改变率：

$\frac{\partial C}{\partial b_j^l}=\delta_j^l$

$\frac{\partial C}{\partial b}=\delta$

矩阵级证：
$\frac{\partial C}{\partial b^l} = \frac{\partial z^l}{\partial b^l}\frac{\partial a^l}{\partial z^l}\frac{\partial C}{\partial a^l} = \frac{\partial w^la^{l-1}+b^l}{\partial b^l} \frac{\partial \sigma(Z^L)}{\partial{Z^L}} \frac{\partial C}{\partial a^l}=I\frac{\partial \sigma(Z^L)}{\partial{Z^L}} \frac{\partial C}{\partial a^l}=\delta^l$

2.4.4 代价函数关于任何一个权重的改变率：

$\frac{\partial C}{\partial w_{jk}^l}=a_k^{l-1}\delta_j^l$

矩阵级证明:
$\frac{\partial C}{\partial w^l} = \frac{\partial z^l}{\partial w^l}\frac{\partial a^l}{\partial z^l}\frac{\partial C}{\partial a^l} = \frac{\partial w^la^{l-1}+b^l}{\partial w^l}\frac{\partial \sigma(Z^L)}{\partial{Z^L}}\frac{\partial C}{\partial a^l}$

2.4.5总结

四个方程:
$\delta^L = \nabla_a C \bigodot \sigma^\prime(z^L)$

$\delta^l=((w^{l+1})^T\delta^{l+1}) \bigodot \sigma^\prime(z^l)$

$\frac{\partial C}{\partial b_j^l}=\delta_j^l$

$\frac{\partial C}{\partial w_{jk}^l}=a_k^{l-1}\delta_j^l$

如果 $a^{l-1}$ 输入神经元激活值很低；或当 $\sigma(z^l)$ 趋近于0或1 时， $\sigma^\prime(z^l)$ 很小，输出神经元已饱和， $\frac{\partial C}{\partial w^l}$ 会很小，这时权重学习很慢。

2.5反向传播算法

2.5.1 计算代价函数梯度

输入x:为输入层设置对应的激活之 $a^1$
前向传播:对每个l=2,3,…,L计算 $z^l = w^l a^{l-1}+b^l$ , $a^l=\sigma(z^l)$
输出层误差 $\delta^L$ : 计算向量 $\delta^L = \nabla_a C \bigodot \sigma^\prime(z^L)=(a^L-y) \bigodot \sigma(z^L)(1-\sigma(z^L))$
反向误差传播:对每个层,L-1,L-2,…,2,计算 $\delta^l=((w^{l+1})^T\delta^{l+1}) \bigodot \sigma^\prime(z^l)$
输出：代价函数的梯度 $\frac{\partial C}{\partial w_{jk}^l}=a_k^{l-1}\delta_j^l$ , $\frac{\partial C}{\partial b_j^l}=\delta_j^l$ 得出

2.5.2 随机梯度下降算法

m为随机小批量数据容量
$w^l \rightarrow w^l - \frac{\eta}{m}\sum_x \delta^{x,l}(a^{x,l-1})^T$

$b^l \rightarrow b^l - \frac{\eta}{m}\sum_x \delta^{x,l}$

2.5 全局观

反向传播可以想象成一种求所有可能的路径变化率和的方式。它巧妙的追踪权重和偏置变化的传播，至敌法输出层从而影响代价函数。

– 补充矩阵求导知识
m维的向量y对n维的向量x求导 $\frac{\partial y}{\partial x}$

分子布局：y以行布局，x以列布局， m x n
$\frac{\partial y}{\partial x}=\begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n} \\ \vdots & \vdots &\ddots & \vdots\\ \frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n}\end{bmatrix}$
分母布局：y以列布局，x以行布局,n x m
$\frac{\partial y}{\partial x}=\begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_2}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_1} \\ \frac{\partial y_1}{\partial x_2} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_2} \\ \vdots & \vdots &\ddots & \vdots\\ \frac{\partial y_1}{\partial x_n} & \frac{\partial y_2}{\partial x_n} & \cdots & \frac{\partial y_m}{\partial x_n}\end{bmatrix}$
对于分母布局：

条件（向量对向量求导）	表达式	结果
X	$\frac{\partial X}{\partial X}$	$I$
矩阵A与X无关	$\frac{\partial AX}{\partial X}$	$A^T$
矩阵A与X无关	$\frac{\partial X^TA}{\partial X}$	$A$
a是常数， $u = u (x)$	$\frac{\partial au}{\partial X}$	$a\frac{\partial u}{\partial X}$
$a = a (x)$ 得到数值, $u = u (x)$	$\frac{\partial au}{\partial X}$	$a\frac{\partial u}{\partial X} +\frac{\partial a}{\partial X}u^T$
矩阵A， $u = u (x)$	$\frac{\partial Au}{\partial X}$	$\frac{\partial u}{\partial X}A^T$
$u = u (x)$	$\frac{\partial f(g(u))}{\partial X}$	$\frac{\partial u}{\partial X}\frac{\partial g(u)}{\partial u}\frac{\partial f(g)}{\partial g}$
$a = a (x), u = u (x)$	$\frac{\partial (u\cdot v)}{\partial X}=\frac{\partial (u^T v)}{\partial X}$	$\frac{\partial u}{\partial X}v + \frac{\partial v}{\partial X}u$

ErinLiu虎哥的铲屎员

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
neural networks and deep learning第二章读书笔记

第二章第二章：反向传播算法如何工作2.1 神经网络中使用矩阵快速计算输出的方法2.2关于代价函数C的两个假设2.3Hadamard乘积，$s\bigodot t$2.4 反向传播的四个基本方程和推导2.4.1 输出层误差的方程$\delta^L$，2.4.2 使用下一层的误差$\delta^{l+1}$来表示当前层的误差$\delta^l$2.4.3 代价函数关于网络中任意偏置的改变率：2.4.4...
复制链接

扫一扫