神经网络推导

最新推荐文章于 2023-06-15 15:25:15 发布

TonLP

最新推荐文章于 2023-06-15 15:25:15 发布

阅读量764

点赞数

分类专栏：深度学习文章标签：神经网络反向传播数学推导

本文链接：https://blog.csdn.net/dchen1993/article/details/53493417

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

首先介绍一个学习DL4NLP的一个网站WildML，英文的，有空我也整理一下中文版。

这篇讲的是神经网络的基础，没有RNN、CNN等结构。废话少说，直接上要推导的一个简单的神经网络结构图。

例子：三层神经网络

这个神经网络包含一个输入层、一个隐含层和一个输出层。
注意输出的神经元有两个（多个），这个经常用在一个二（多）分类任务上，代表着每一类的概率，相应的激活函数变成了softmax函数（相当于多分类逻辑回归）。当然，如果用在其他任务上，输出结点的值含义可能不同，取值范围也可能不同。

softmax函数

σ (z) j = e z j \sum K k = 1 e z k

$\sigma (z)_j = { e^{z_j} \over {\sum_{k=1}^K e^{z_k}}}$

导数：

\partial σ ( z ) j \partial z i = {σ (z) j (1 - σ (z) j) - σ (z) i σ (z) j i=j i \neq j

${\partial \sigma (z)_j \over \partial z_i} = \begin{cases} \sigma (z)_j(1-\sigma (z)_j)& \text {i=j}\\ -\sigma (z)_i \sigma (z)_j& \text {i$\neq$j} \end{cases}$

激活函数

常用的激活函数有tanh、sigmoid和ReLU。激活函数是一个学问，需要单独整理一块。
下面简单叙述一下各个函数的表达式：

tanh

t a n h (x) = 1 - e - 2 x 1 + e - 2 x

$tanh(x)= { {1-e^{-2x}} \over {1+e^{-2x}}}$

sigmoid

s i g m o i d (x) = 1 1 + e - x

$sigmoid(x)={1 \over {1+e^{-x}}}$

ReLU

y = {x 0 if x \geq 0 if x < 0

$y= \begin{cases} x& \text {if x $\ge$ 0} \\ 0& \text {if x $\lt $ 0} \end{cases}$

前向传播公式

例子使用tanh激活函数，最后用softmax函数生成分布。

$z_2=x\theta^{(1)}$
$a_2=tanh(z_2)$
$z_3=a_2\theta^{(2)}$
$a_3=\hat y=softmax(z_3)$

损失函数

这里使用cross entropy作为损失函数，表达式为：

J (θ) = C r o s s E n t r o p y (y, y ̂) = - 1 N \sum n \in N \sum i \in C y n, i l o g y ̂ n, i

$\begin{align} J(\theta)&=CrossEntropy(y,\hat y)\\ &=-{1\over N}\sum_{n \in N} \sum_{i \in C} y_{n,i}log \hat y_{n,i} \end{align}$

其中N是样本数量，C是类别集合。

反向传播中的梯度求解

这里定义第l层第i个单元的计算误差：

δ (l) i = \partial J \partial z ( l ) i

$\delta_{i}^{(l)} = {\partial J \over \partial z_{i}^{(l)}}$

其中 $z_{i}^{(l)}$ 代表第l层的第i个神经元的输入值。

我们的目标是要求参数的所有参数的梯度，即 $\partial J \over \partial \theta$

这里推导通用的情况。

我们对 $\theta_{i,j}^{(l)}$ 求导( $l\lt L$ )：

\partial J \partial θ ( l ) i , j = \partial J \partial z ( l + 1 ) i \cdot \partial z ( l + 1 ) i \partial θ ( l ) i , j = \partial J \partial a ( l + 1 ) i \cdot \partial a ( l + 1 ) i \partial z ( l + 1 ) i \cdot \partial z ( l + 1 ) i \partial θ ( l ) i , j = \sum k = 1 S (l + 2) δ (l + 2) k θ (l + 1) k, i \cdot g' (z (l + 1) i) \cdot a (l) i

$\begin{align} {\partial J \over \partial \theta_{i,j}^{(l)}}&={\partial J \over \partial z_i^{(l+1)}} \cdot {\partial z_i^{(l+1)} \over \partial \theta_{i,j}^{(l)}}\\ &={\partial J \over \partial a_i^{(l+1)}} \cdot {\partial a_i^{(l+1)} \over \partial z_i^{(l+1)}} \cdot {\partial z_i^{(l+1)} \over \partial \theta_{i,j}^{(l)}}\\ &=\sum_{k=1}^{S_{(l+2)}}\delta_k^{(l+2)} \theta_{k,i}^{(l+1)} \cdot g'(z_i^{(l+1)}) \cdot a_i^{(l)} \end{align}$

根据 $\delta$ 的定义：

δ (l + 1) i = \partial J \partial z ( l + 1 ) i = \sum k = 1 S l + 2 \partial J \partial z ( l + 2 ) k \cdot \partial z ( l + 2 ) k \partial a ( l + 1 ) i \cdot \partial a ( l + 1 ) i \partial z ( l + 1 ) i = \sum k = 1 S (l + 2 δ (l + 2) l θ (l + 1) k, i \cdot g' (z (l + 1) i)

$\begin{align} \delta_i^{(l+1)}&={\partial J \over \partial z_{i}^{(l+1)}} \\ &=\sum_{k=1}^{S_{l+2}}{\partial J \over \partial z_k^{(l+2)}} \cdot {\partial z_k^{(l+2)} \over \partial a_i^{(l+1)}} \cdot {\partial a_i^{(l+1)} \over \partial z_i^{(l+1)}}\\ &=\sum_{k=1}^{S_{(l+2}}\delta_l^{(l+2)} \theta_{k,i}^{(l+1)} \cdot g'(z_i^{(l+1)}) \end{align}$
这里的

θ $\theta$ 和

a $a$ 都是已知变量，为当前迭代的参数和输出。

表达为矩阵形式， $\delta^{l+1}$ 指第l+1层的所有单元的计算误差，则 $\delta_i^{(l+1)}$ 是其第i个元素：

δ (l + 1) = (θ (l + 1)) T δ (l + 2) . * g' (z (l + 1))

$\delta^{(l+1)}=(\theta^{(l+1)})^T \delta^{(l+2)} .* g'(z^{(l+1)})$
注意.*为矩阵对应元素之间两两相乘。

这样就可以反向传播求所有神经元的计算误差。
最后，

\partial J \partial θ l = δ (l + 1) (a (l)) T

${\partial J \over \partial \theta^l}=\delta^{(l+1)}(a^{(l)})^T$

代入例子中计算梯度

计算第三层第i单元的计算误差 $\delta_i^{(3)}$ ：

δ (3) i = \partial J \partial z ( 3 ) i = - \sum k \in C y k \partial l o g y ̂ \partial z ( 3 ) i = - \sum k \in C y k 1 y ̂ \partial y ̂ \partial z ( 3 ) i = - y i 1 y ̂ y ̂ (1 - y ̂) - \sum k \in C a n d k \neg i y k 1 y ̂ (- y ̂ k y ̂ i) = - y i (1 - y ̂) + \sum k \in C a n d k \neg i y k y ̂ i = y ̂ i (\sum k \in C y k) - y i = y ̂ i - y i

$\begin{align} \delta_i^{(3)} &= {\partial J \over \partial z_i^{(3)}}\\ &=-\sum_{k\in C}y_k{\partial log\hat y \over \partial z_i^{(3)}}=-\sum_{k\in C}y_k{1 \over \hat y}{\partial \hat y \over \partial z_i^{(3)}}\\ &=-y_i{1 \over \hat y}\hat y (1-\hat y)-\sum_{k\in C and k \neg i}y_k{1 \over \hat y}(-\hat y_k \hat y_i)\\ &=-y_i(1-\hat y)+\sum_{k\in C and k \neg i}y_k \hat y_i\\ &=\hat y_i(\sum_{k \in C}y_k)-y_i\\ &=\hat y_i-y_i \end{align}$

*第三层的所有计算误差用 $\delta^3$ 表示。

计算 $\delta^2$ :

δ 2 = (θ (2)) T δ (3) . * g' (z (2)) = (θ (2)) T δ (3) . * (1 - t a n h 2 z (2))

$\begin{align} \delta^2 &= (\theta^{(2)})^T \delta^{(3)} .* g'(z^{(2)})\\ &=(\theta^{(2)})^T \delta^{(3)} .* (1-tanh^2 z^{(2)}) \end{align}$

计算关于 $\theta^{(2)}$ 的偏导：

\partial J \partial θ ( 2 ) = δ (3) (a (2)) T

${\partial J \over \partial \theta^{(2)}}=\delta^{(3)} (a^{(2)})^T$

计算关于 $\theta^{(1)}$ 的偏导：

\partial J \partial θ ( 1 ) = δ (2) (a (1)) T = δ (2) (x) T

$\begin{align} {\partial J \over \partial \theta^{(1)}}&=\delta^{(2)} (a^{(1)})^T\\ &=\delta^{(2)} (x)^T \end{align}$

到此，所有的 $\theta$ 都已经可以求出来，最后代入梯度下降公式更新参数：

θ : = θ - λ \partial J \partial θ

$\theta := \theta - \lambda {\partial J \over \partial \theta}$

参考资料：

http://www.wildml.com/2015/09/implementing-a-neural-network-from-scratch/

TonLP

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
神经网络推导

首先介绍一个学习DL4NLP的一个网站WildML，英文的，有空我也整理一下中文版。这篇讲的是神经网络的基础，没有RNN、CNN等结构。废话少说，直接上要推导的一个简单的神经网络结构图。例子：三层神经网络这个神经网络包含一个输入层、一个隐含层和一个输出层。注意输出的神经元有两个（多个），这个经常用在一个二（多）分类任务上，代表着每一类的概率，相应的激活函数变成了softmax函数（相当于多分类逻
复制链接

扫一扫