神经网络及相关公式推导

最新推荐文章于 2024-04-20 21:36:41 发布

蓬某某

最新推荐文章于 2024-04-20 21:36:41 发布

阅读量683

点赞数

分类专栏：机器学习文章标签：深度学习 python

本文链接：https://blog.csdn.net/wang_yunpeng/article/details/103465854

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

1. 神经网络

neural_network
输入 $x_1, x_2,...,x_n]$ ，输出 $y_1, y_2,...,y_k]$ 。
当输出分类 $k > 2$ 时，使用
$\begin{bmatrix}1\\0\\... \\0\end{bmatrix},\begin{bmatrix}0\\1\\...\\0\end{bmatrix},\begin{bmatrix}0\\...\\1\\0\end{bmatrix},\begin{bmatrix}0\\0\\...\\1\end{bmatrix}$
作为输出。

2. 代价函数

$J(\Theta)=-\frac{1}{m}\left[\sum_{i=1}^{m}\sum_{k=1}^{K}y_k^{(i)}log(h_{\Theta}(x^{(i)}))_k+(1-y_k^{(i)})log(1-(h_{\Theta}(x^{(i)}))_k)\right]+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_{(l+1)}}(\Theta_{ji}^{(l)})^2$

3. 前向传播

$a^{(1)}=x \\a^{(l)} = h_{\Theta^{(l)}}(\widehat{a^{(l-1)}})=g\left({\Theta^{(l-1)}}\begin{bmatrix}1\\a^{(l-1)}\end{bmatrix}\right),1<l\le L \\\Theta^{(l)} \in \Bbb R^{s_{l+1}\times(s_l+1)}$

4. 后向传播

$\delta^{(L)} = (a^{(L)}-y)a^{(L)}(1-a^{(L)}) \\ \delta^{(l)} = (\widehat{\Theta^{(l)}})^T\delta^{(l+1)}.*a^{(l)}.*(1-a^{(l)}), 1<l<L \\\widehat{\Theta^{(l)}}为不包含\theta_0的\Theta^{(l)}$

5. 后向传播推导

由前向传播可得：
$\begin{bmatrix}\theta_{1,0}^{(l)} & \theta_{1,1}^{(l)} & ... & \theta_{1,s_l}^{(l)}\\\theta_{2,0}^{(l)} & \theta_{2,1}^{(l)} & ... & \theta_{2,s_l}^{(l)}\\... & ... & ... & ...\\\theta_{s_{(l+1)},0}^{(l)} & \theta_{s_{(l+1)},1}^{(l)} & ... & \theta_{s_{(l+1)},s_l}^{(l)}\\\end{bmatrix}\begin{bmatrix}1 \\a_1^{(l)} \\a_2^{(l)} \\... \\a_{s_l}^{(l)} \\\end{bmatrix}=\begin{bmatrix}z_1^{(l+1)} \\z_2^{(l+1)} \\... \\z_{s_{(l+1)}}^{(l+1)} \\\end{bmatrix}\to g(x) \to\begin{bmatrix}a_1^{(l+1)} \\a_2^{(l+1)} \\... \\a_{s_{(l+1)}}^{(l+1)} \\\end{bmatrix}\\$
$a_i^{(l+1)} = g(z_i^{(l+1)}) = g(\theta_{i,0}^{(l)}+\theta_{i,1}^{(l)}a_1^{(l)}+\theta_{i,2}^{(l)}a_2^{(l)}+...+\theta_{i,s_l}^{(l)}a_{s_1}^{(l)})\\$
设输出对激励输入的偏导数为当前输入的误差，则：
$dJ(x,\theta)=\delta_i^{(l+1)}d(z_i^{(l+1)}) = \delta_i^{(l+1)}d(\sum_{k=0}^{s_l}\theta_{i, k}^{(l)}a_k^{(l)}) \tag{1}$
所以有：
$\begin{aligned} \frac{dJ(x,\theta)}{d(z_m^{(l)})} &= \frac{dJ(x,\theta)}{d(z^{(l+1)})}\frac{d(z^{(l+1)})}{d(z_m^{(l)})}=\sum_{i=1}^{s_{l+1}}\delta_i^{(l+1)}d(\sum_{k=0}^{s_l}\theta_{i, k}^{(l)}a_k^{(l)})/d(z_m^{(l)}) \\&=\sum_{i=1}^{s_{l+1}}\delta_i^{(l+1)}\sum_{k=0}^{s_l}\theta_{i, k}^{(l)}\frac{d(a_k^{(l)})}{d(z_m^{(l)})}=\sum_{i=1}^{s_{l+1}}\delta_i^{(l+1)}\theta_{i, m}^{(l)}a_m^{(l)}(1-a_m^{(l)})\\ \end{aligned}$
得到：
$\delta_m^{(l)}=a_m^{(l)}(1-a_m^{(l)})\sum_{i=1}^{s_{l+1}}\delta_i^{(l+1)}\theta_{i, m}^{(l)}\\$
向量扩充：
$\begin{bmatrix}\delta_1^{(l)} \\ \delta_2^{(l)} \\ ... \\ \delta_{s_l}^{(l)}\end{bmatrix}=\begin{bmatrix}a_1^{(l)} \\ a_2^{(l)} \\ ... \\ a_{s_l}^{(l)}\end{bmatrix}.*\left (1-\begin{bmatrix}a_1^{(l)} \\ a_2^{(l)} \\ ... \\ a_{s_l}^{(l)}\end{bmatrix}\right).*\left(\begin{bmatrix}\theta_{1, 1}^{(l)} &\theta_{2, 1}^{(l)} &...&\theta_{s_{l+1}, 1}^{(l)}\\ \theta_{1, 2}^{(l)} &\theta_{2, 2}^{(l)} &...&\theta_{s_{l+1}, 2}^{(l)} \\ ... \\ \theta_{1, s_l}^{(l)} &\theta_{2, s_l}^{(l)} &...&\theta_{s_{l+1}, s_l}^{(l)}\end{bmatrix}\begin{bmatrix}\delta_1^{(l+1)} \\ \delta_2^{(l+1)} \\ ... \\ \delta_{s_{l+1}}^{(l+1)}\end{bmatrix}\right) \\$
最后得到：
$\delta^{(l)}=a^{(l)}.*(1-a^{(l)}).*({\theta^{(l)}}^T\delta^{(l+1)}) \tag{2}$
又由公式（1）得：
$\frac{dJ(x,\theta)}{d\theta_{i, j}^{(l)}}=\delta_i^{(l+1)}a_j^{(l)} \tag{3}$
假设 $J(x,\theta)=\frac{1}{2}(h(x)-y)^2$ ，则：
$\delta^{(L)}=\frac{dJ(x,\theta)}{dz^{L}}=\frac{dJ(x,\theta)}{da^{L}}\frac{da^{L}}{dz^{L}}$
得到
$\delta^{(L)}=(a^{L}-y)a^{L}(1-a^{L}) \tag{4}$

6. 后向传播算法

误差矩阵 $\Delta_{ij}^{(l)}$ 初始化为零
For i=1:m
(1). $a^{(1)}=x^{(i)}$ 其中 $a$ 的上标表示不同的层数， $x$ 的上标表示不同的测试样本
(2). 利用前向传播计算 $a^{(2)},a^{(3)},...,a^{(L)}$
(3). 初始 $\delta^{(L)}=(a^{(L)}-y^{(i)})a^{(L)}(1-a^{(L)})$
(4). 利用后向传播计算 $\delta^{(l)}$
(5). $\Delta_{ij}^{(l)}$ := $\Delta_{ij}^{(l)}+a_j^{(l)}\delta_i^{l+1}$
求出偏导数 $D_{ij}^{(l)}=\frac{1}{m}\Delta_{ij}^{(l)}+\lambda\theta_{ij}^{(l)}$
利用偏导数进行梯度下降

7. 神经网络训练

A. 参数随机化，若 $\Theta$ 全为0，会导致全为相同值，所以必须初始化初始值为随机值。

B. 利用正向传播计算所有层的值 $a^{(l)}$

C. 计算此时的代价函数 $J(\Theta)$

D. 利用后向传播计算所有偏导数

E. 利用数值检验法检验偏导数（ $D\approx\frac{J(\Theta+\epsilon)-J(\Theta-\epsilon)}{2\epsilon}$ ）

F. 利用优化算法最小化代价函数（梯度下降）

蓬某某

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
神经网络及相关公式推导

1. 神经网络输入[x1,x2,...,xn][x_1, x_2,...,x_n][x1,x2,...,xn]，输出[y1,y2,...,yk][y_1, y_2,...,y_k][y1,y2,...,yk]。当输出分类k>2k>2k>2时，使用[10...0],[01...0],[0...10],[00...1]\begin{bmatrix}1\\0\\.....
复制链接

扫一扫