Neural network最基础的反向传播矩阵形式推导（乱推）

最新推荐文章于 2021-05-18 15:32:49 发布

打酱猪

最新推荐文章于 2021-05-18 15:32:49 发布

阅读量1k

点赞数

分类专栏：神经网络文章标签：神经网络

本文链接：https://blog.csdn.net/qq_36248632/article/details/103696025

版权

神经网络专栏收录该内容

17 篇文章 0 订阅

订阅专栏

Neural network最基础的反向传播矩阵形式推导

1 符号定义
2 正向传播-矩阵表示
3 反向传播-矩阵表示

1 符号定义

这里的符号定义采用与吴恩达 deeplearing.ai 课程的定义相同，具体定义如下：

1.1 Data和Label的定义

Data矩阵形式：一般行放特征，列放样本。即每一列是一个样本，每一行是这个样本的一个特征。如果每个样本有 $n^x$ 个特征， $m$ 个样本，那么Data矩阵的维度应该是 $(n^x \times m)$ 。
Label矩阵形式：与Data相同。二分类时，是 $\times m)$ ；多分类时，如果有 $n^y$ 个输出（类别），是 $(n^y \times m)$ 。

1.2 Weights和Activation的定义

Weights矩阵形式：一般行数与下一层的特征数目相等，列数与上一层的特征数目相等。一般以 $n^{[l]}$ 表示第 $l$ 层的特征数量。其中输入层算作第0层，即 $n^x=n^{[0]}$ 。那么若把 $(l - 1)$ 层与 $l$ 层之间的权重矩阵记为 $W^{[l]}$ ，则 $W^{[l]}$ 的矩阵维度是 $(n^{[l]} \times n^{[l-1]})$ 。
Activation矩阵形式：以从输入层到第一层为例。首先进行神经网络内部的计算，即 $Z^{[1]}=W^{[1]} \times X$ 。通过Data(这里的 $X$ 就是Data)矩阵的维度 $(n^{[0]} \times m)$ 和Weights矩阵的维度 $(n^{[1]} \times n^{[0]})$ ，我们可以计算出 $Z^{[1]}$ 矩阵的维度是 $(n^{[1]} \times m)$ 。那么若把 $l$ 层的Activation矩阵记为 $A^{[l]}=g^{[l]}(Z^{[l]})$ ，则 $A^{[l]}$ 的维度永远和 $Z^{[l]}$ 保持一致,即 $A^{[1]}$ 的维度是 $(n^{[1]} \times m)$ 。

1.3 导数符号定义

一般导数采用简写形式。例：以 $J$ 代表总的 $l o s s$ ，那么 $dZ^{[l]}$ 就表示 $Z^{[l]}$ 对 $J$ 求导，用公式表示就是 $\frac{dJ}{dZ^{[l]}}=dZ^{[l]}$ 。

2 正向传播-矩阵表示

这里以隐藏层只有一层的神经网络为例，网络结构大致如上图所示。

2.1 输入层【0】

这一层的每个unit直接就是输入样本，所以有： $A^{[0]}=X$ 。

2.2 隐藏层【1】

这一层的每个unit经过权重和激活函数的双重处理：
权重处理： $Z^{[1]}=W^{[1]} \times A^{[0]}$ ，激活函数处理： $A^{[1]}=g^{[1]}(Z^{[1]})$ 。这当中， $g^{[1]}$ 表示层1的激活函数。

2.3 输出层【2】

输出层和隐藏层类似。权重处理： $Z^{[2]}=W^{[2]} \times A^{[1]}$ ，激活函数处理： $A^{[2]}=g^{[2]}(Z^{[2]})$ 。这当中， $g^{[2]}$ 表示层2（输出层）的激活函数。

2.4 误差函数

若以J表示网络总的误差函数，以交叉熵为例，则有：
$\frac{1}{m} \sum_{i=1}^{i=m}{[-y^{(i)}*\log(a^{[2](i)})-(1-y^{(i)})*\log(1-a^{[2](i)})]}$ 。

3 反向传播-矩阵表示

3.1 输出层—>隐藏层

首先应该计算的是总的误差函数对输出结果的偏导。
$\frac{dJ}{da^{[2](i)}}=\frac{1}{m}*(\frac{a^{[2](i)}-y^{(i)}}{a^{[2](i)}*(1-a^{[2](i)})})=\frac{1}{m} * da^{[2](i)}$ 。
而误差对激活前的 $Z^{[2]}$ 值求导为：
$\frac{dJ}{dz^{[2](i)}}=dz^{[2](i)}=da^{[2](i)}*a^{[2](i)}(1-a^{[2](i)})=\frac{1}{m}(a^{[2](i)}-y^{(i)})$ 。
显然，化成矩阵的表达式就是： $dZ^{[2]}=\frac{1}{m}*(A^{[2]}-Y)$ 。
下面算误差对层2权重的求导：
我们以有括号表示列，以没有括号表示行。
那么从正向上来看，矩阵 $Z^{[2]}$ 的每个元素可以表示为：
$Z^{[2]}(\alpha,\beta)=W^{[2]\alpha}\times A^{[1](\beta)}$ ，
$Z^{[2](i)}=Z^{[2]}(:,i)=\begin{pmatrix} Z^{[2]}(1,i) \\ Z^{[2]}(2,i) \\ ... \\ Z^{[2]}(\alpha,i) \\ \end{pmatrix}=\begin{pmatrix} W^{[2]1}\times A^{[1](i)} \\ W^{[2]2}\times A^{[1](i)} \\ ... \\ W^{[2]\alpha}\times A^{[1](i)} \\ \end{pmatrix}$ ,
$Z^{[2]i}=Z^{[2]}(i,:)=\begin{pmatrix} Z^{[2]}(i,1) & Z^{[2]}(i,2)&...&Z^{[2]}(i,\beta) \\ \end{pmatrix}=\begin{pmatrix}W^{[2]i}\times A^{[1](1)} & W^{[2]i}\times A^{[1](2)}&...&W^{[2]i}\times A^{[1](\beta)}\\ \end{pmatrix}$ 。
从反向看，权重和 $A^{[1]}$ 的导数：
$\frac{dJ}{dW^{[2]i}}=dW^{[2]i}=dZ^{[2]i}*\frac{dZ^{[2]i}}{dW^{[2]i}}=dZ^{[2]i}\times\begin{pmatrix} A^{[1](1)} & A^{[1](2)}&...&A^{[1](\beta)}\\ \end{pmatrix} ^{T}=dZ^{[2]i}\times A^{[1]T}$ （没括号是行，要放前面; Z还原W要乘以矩阵的逆），
$\frac{dJ}{dA^{[1](i)}}=dA^{[1](i)}=dZ^{[2](i)}*\frac{dZ^{[2](i)}}{dA^{[2](i)}}=\begin{pmatrix} W^{[2]1}\\ W^{[2]2}\\ ... \\ W^{[2]\alpha} \\ \end{pmatrix}^T\times dZ^{[2](i)}=W^{[2]T} \times dZ^{[2](i)}$ （有括号是列，要放后面; Z还原A要乘以矩阵的逆）,
所以显而易见，有矩阵形式为：
$\frac{dJ}{dW^{[2]}}=dW^{[2]}=\sum_{i}dW^{[2]i}=dZ^{[2]}\times A^{[1]T}$ ，
$\frac{dJ}{dA^{[1]}}=dA^{[1]}=\sum_{i}dA^{[1]i}=W^{[2]T}\times dZ^{[2]}$

3.2 隐藏层—>输入层

首先计算误差对激活前的 $Z^{[1]}$ 求导：
$\frac{dJ}{dZ^{[1]}}=dZ^{[1]}=dA^{[1]}*\frac{dA^{[1]}}{dZ^{[1]}}$ （由于 $g^{[1]}$ 是对矩阵元素操作，所以导数也应该是矩阵元素相乘！！！ $*$ 应该表示矩阵元素相乘。）。
根据3.1，误差对层1权重的求导有矩阵形式为：
$\frac{dJ}{dW^{[1]}}=dW^{[1]}=dZ^{[1]}\times A^{[0]T}$ 。

关于偏差 $b$ ，大家可自行推导; 也可以把 $b$ 换成一行1放到A中，不单独计算b。

打酱猪

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Neural network最基础的反向传播矩阵形式推导（乱推）

neural network最基础的反向传播矩阵形式推导符号定义Data和Label的定义Layer和Activation导数符号定义如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程...
复制链接

扫一扫