DNN前向传播和反向传播

最新推荐文章于 2023-05-04 14:55:13 发布

kakak_

最新推荐文章于 2023-05-04 14:55:13 发布

阅读量360

点赞数

分类专栏： Deep Learning

本文链接：https://blog.csdn.net/kakak_/article/details/105485890

版权

Deep Learning 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

深度神经网络（Deep Neural Networks）

在这里插入图片描述
Forward

输入: 总层数L，所有隐藏层和输出层对应的矩阵𝑊(从2开始)，偏倚向量𝑏，输入值向量𝑥
输出：输出层的输出 $a^L$

初始化 $a^1=x$
$for\; l=2\;to\; L$ ： $a^l = \sigma(z^l) = \sigma(W^la^{l-1} + b^l)$
最后的结果即为输出 $a^L$

Back Propagation
$\frac{1}{2}||a^L-y||_2^2$ $\delta^L = \frac{\partial J(W,b,x,y)}{\partial z^L} = (a^L-y)\odot \sigma^{'}(z^L)$ $\delta^{l} = \frac{\partial J(W,b,x,y)}{\partial z^l} = (\frac{\partial z^{l+1}}{\partial z^{l}})^T\frac{\partial J(W,b,x,y)}{\partial z^{l+1}} =(\frac{\partial z^{l+1}}{\partial z^{l}})^T \delta^{l+1}$ $z^{l+1}= W^{l+1}a^{l} + b^{l+1} = W^{l+1}\sigma(z^l) + b^{l+1}$ $\delta^{l} = (\frac{\partial z^{l+1}}{\partial z^{l}})^T\frac{\partial J(W,b,x,y)}{\partial z^{l+1}} =(W^{l+1})^T\delta^{l+1}\odot \sigma^{'}(z^l)$ $\frac{\partial J(W,b,x,y)}{\partial W^l} = \delta^{l}(a^{l-1})^T$ $\frac{\partial J(W,b,x,y)}{\partial b^l} = \delta^{l}$ 符号⊙代表Hadamard积，矩阵点乘

输入: 总层数L，以及各隐藏层与输出层的神经元个数，激活函数σ，损失函数，迭代步长𝛼，最大迭代次数MAX与停止迭代阈值𝜖，m个训练样本 ${(x_1,y_1), (x_2,y_2), ..., (x_m,y_m)\}$
输出：各隐藏层与输出层的线性关系系数矩阵𝑊和偏倚向量𝑏

初始化各隐藏层与输出层的线性关系系数矩阵𝑊和偏倚向量𝑏的值为一个随机值。
$for\; iter\; to\; 1\; to\; max$ : 3-5
$for\; i =1\; to\; m$ ：
- DNN输入 $a^1=x^1$
- $for\; l=2\;to\; L$ ，计算 $a^{i,l} = \sigma(z^{i,l}) = \sigma(W^la^{i,l-1} + b^l)$
- 通过损失函数计算输出层的 $\delta^{i,L}$
- $for\; l=L-1\;to\; 2$ , 进行反向传播算法计算 $\delta^{i,l} = (W^{l+1})^T\delta^{i,l+1}\odot \sigma^{'}(z^{i,l})$
$for\; l =2\; to\; L$ ，更新第𝑙层的 $W^l,b^l$ : $W^l = W^l -\alpha \sum\limits_{i=1}^m \delta^{i,l}(a^{i, l-1})^T$ $b^l = b^l -\alpha \sum\limits_{i=1}^m \delta^{i,l}$
如果所有𝑊, 𝑏的变化值都小于停止迭代阈值𝜖，则跳出迭代循环。
输出各隐藏层与输出层的线性关系系数矩阵𝑊和偏倚向量𝑏。