神经网络基础知识

最新推荐文章于 2024-07-02 19:18:43 发布

zhaohui24

最新推荐文章于 2024-07-02 19:18:43 发布

阅读量439

点赞数 2

分类专栏：机器学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/weixin_31948131/article/details/113913372

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

1. 网络结构
2. 激活函数 Activation Fuction
3. softmax
4. BP算法

1. 网络结构

在这里插入图片描述

两层网络结构示意图-1

前馈神经网络根据输入的 $x_i$ 值，一层层训练出 $h_j$ ， $a_k$ ， $o_k$ ， $t_k$ 值。误差反向传播（BP算法）训练出 $b_k$ ， $w_{jk}$ ， $b_j$ ， $w_{ij}$ 权重值和偏置项。

2. 激活函数 Activation Fuction

非线性函数作为激活函数能使得整个模型的拟合能力变好。
在这里插入图片描述
网络结构图-1中的激活函数 A 采用的是双曲正切 tanh函数。

2.1 tanh

将输出的值压缩到-1~1范围，数据符合0均值。（RNN中使用较多）
$\begin{array}{l} \tanh x=\frac{\sinh x}{\cosh x}=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}=\frac{e^{2 x}-1}{e^{2 x}+1}=\frac{1-e^{-2 x}}{1+e^{-2 x}} \end{array}$

$\begin{array}{l} \frac{d \tanh x}{d x}=\left(\frac{e^{2 x}-1}{e^{2 x}+1}\right)^{\prime}=\frac{\left(e^{2 x}-1\right)^{\prime}\left(e^{2 x}+1\right)-\left(e^{2 x}-1\right)\left(e^{2 x}+1\right)^{\prime}}{\left(e^{2 x}+1\right)^{2}} \\ =\frac{2 e^{2 x}\left(e^{2 x}+1\right)-\left(e^{2 x}-1\right) 2 e^{2 x}}{\left(e^{2 x}+1\right)^{2}}=\frac{4 e^{2 x}}{\left(e^{2 x}+1\right)^{2}} \\ =\frac{\left(e^{2 x}+1+e^{2 x}-1\right)\left(e^{2 x}+1-e^{2 x}+1\right)}{\left(e^{2 x}+1\right)\left(e^{2 x}+1\right)} =\frac{\left(e^{2 x}+1+e^{2 x}-1\right)}{\left(e^{2 x}+1\right)} \frac{\left(e^{2 x}+1-e^{2 x}+1\right)}{\left(e^{2 x}+1\right)} \\ =(1+\tanh x)(1-\tanh x) \end{array}$
则 $h = t a n h x$ ， $h^{'}=(1+h)(1-h)$ 。导数范围是 $(0, 1)$ ，易导致梯度消失。

2.2 Sigmoid

将输出值压缩到0-1之间， $f(x)=\sigma(x)=\frac{1}{1+e^{-x}}$
$\begin{aligned} \frac{d}{d x} \sigma(x) &=\frac{d}{d x}\left(\frac{1}{1+e^{-x}}\right) \\ &=\frac{e^{-x}}{\left(1+e^{-x}\right)^{2}} \\ &=\frac{\left(1+e^{-x}\right)-1}{\left(1+e^{-x}\right)^{2}} \\ &=\frac{1+e^{-x}}{\left(1+e^{-x}\right)^{2}}-\left(\frac{1}{1+e^{-x}}\right)^{2} \\ &=\sigma(x)-\sigma(x)^{2} \\ \end{aligned}$

所以有 $\sigma^{\prime} =\sigma(1-\sigma)$ 。导数输出范围是 $[0, 0.25]$ ，易导致梯度消失。输出为非0均值，破坏数据分布。
缺陷：在x值趋近 $+\infty,-\infty$ 时，导数接近0， $\sigma$ 的参数（权值）会长时间得不到更新，此过程叫梯度弥散(梯度消亡)。
梯度消亡解决方法：
① 使用激活函数 ReLU： $f (x) = m a x (0, x)$ ，输入大于0，梯度为1，否则为0。
② 使用激活函数 LeakyReLu： $max(\alpha x,x)$ ，输入大于等于0，梯度为1，否则为 $\alpha$ 。

2.3 ReLU

$y = m a x (0, x)$
$f(x)=\left\{\begin{array}{ll} 0 & \text { for } x<0 \\ x & \text { for } x \geq 0 \end{array}\right.$
输出值均为正数，负半轴导致死神经元，减少计算量。反向传播时，导数是1，不会有放大或缩小的效应，缓解梯度消失。缓解过拟合，在输入小于 0 时，输出值也小于0，神经网络相当于未参与训练，可训练参数减少，缓解过拟合。

2.4 LeakyReLU

在这里插入图片描述
nn.LeakyReLU

negative_slope：负半轴斜率

nn.PReLU

init：可学习斜率

nn.RReLU

lower：均匀分布下限
upper：均匀分布上限

3. softmax

softmax是一种特殊的激活函数，与tanh,sigmoid,ReLU的区别：

softmax输入是向量，输出是向量，不方便画出显式的函数关系图；输出向量的某元素和整个输入向量均有关；常用于网络输出层的激活函数，归一化类别的预测概率。
对于常规激活函数，输入为标量时输出标量，可画出函数关系图；当输入为向量时输出为向量，但输出向量的各个元素之间独立，即输出向量中某位置的元素不依赖于其他位置的输入元素。
常规激活函数常用于网络中间层的激活函数，sigmoid也可用于输出层将实数变为[0, 1]的预测概率，tanh也可用于输出层将实数变为[-1, 1]的预测概率。这两种激活函数在输入很大或很小时会出现饱和现象，造成梯度更新缓慢，ReLU目前得到更多应用。

网络结构图-1 中的softmax函数使用归一化指数函数。
$\begin{array}{l} \sigma: \mathbb{R}^{K} \rightarrow\left\{z \in \mathbb{R}^{K} \mid z_{i}>0, \sum_{i=1}^{K} z_{i}=1\right\} \\ \sigma(\mathbf{z})_{j}=\frac{e^{z_{j}}}{\sum_{k=1}^{K} e^{z_{k}}} \quad \text { for } j=1, \ldots, K \end{array}$

设softmax的输入为 $\vec{a}=(a_1,..., a_K)^T$ ，其中 $a_i=\sum_jw_{ji}h_j+b_i$
softmax的输出为 $\vec{o}=(o_1,..., o_K)^T$ ，其中 $o_i=\frac{e^{a_{i}}}{\sum_{k} e^{a_{k}}}$
设真实的标签为 $\vec{t}=(0,... ,0,1,0,... , 0)^T$

softmax 对 $a_i$ 的导数推导： $\frac{\mathrm{d} o_{j}}{d a_{i}}=\frac{d \frac{e^{a_{j}}}{\sum_{k} e^{a_{k}}}}{d a_{i}}$

当 $i = j$ 时，
$\frac{\mathrm{d} o_{j}}{d a_{i}}=\frac{d \frac{e^{a_{j}}}{\Sigma_{k} e^{a_{k}}}}{d a_{i}}=\frac{e^{a_{j}} \Sigma_{k} e^{a_{k}}-e^{a_{j}}e^{ a_{i}}}{\left(\Sigma_{k} e^{a_{k}}\right)^{2}}=\frac{e^{a_{j}}\left(\Sigma_{k} e^{a_{k}}-e ^{a_{i}}\right)}{\left(\Sigma_{k} e^{a_{k}}\right)^{2}}=\frac{e^{a_{j}}}{\sum_{k} e^{a_{k}}} \frac{\sum_{k} e^{a_{k}}-e^{ a_{i}}}{\sum_{k} e^{a_{k}}}=o_{j}\left(1-o_{i}\right)$
当 $\neq j$ 时,
$\frac{\mathrm{d} o_{j}}{d a_{i}}=\frac{d \frac{e^{a_{j}}}{\Sigma_{k} e^{a_{k}}}}{d a_{i}}=\frac{0 \cdot \Sigma_{k} e^{a_{k}} -e^{a_{j}} e^{a_{i}}}{\left(\Sigma_{k} e^{a_{k}}\right)^{2}}=\frac{-e^{a_{j}} e^{a_{i}}}{\left(\sum_{k} e^{a_{k}}\right)^{2}}=\frac{-e^{a_{j}}}{\sum_{k} e^{a_{k}}} \frac{e^{a_{i}}}{\sum_{k} e^{a_{k}}}=-o_{j} o_{i}$
综合起来， $\frac{\mathrm{d} o_{j}}{d a_{i}}=o_{j}\left(1_{i =j}-o_{i}\right)$

3.1 Softmax + CrossEntropy

输出层激活函数softmax，损失函数为CrossEntropy时输出层的权值的梯度。

设softmax的输入为 $\vec{a}=(a_1,..., a_K)^T$ ，其中 $a_i=\sum_jw_{ji}h_j+b_i$
softmax的输出为 $\vec{o}=(o_1,..., o_K)^T$ ，其中 $o_i=\frac{e^{a_{i}}}{\sum_{k} e^{a_{k}}}$
设真实的标签为 $\vec{t}=(0,... ,0,1,0,... , 0)^T$
交叉熵损失函数 $L=-\sum_{k} t_{k} \log o_{k}$ $\Rightarrow \frac{\partial L}{\partial a_{l}}=-\sum_{k} t_{k} \frac{\partial \log o_{k}}{\partial a_{l}}$

根据softmax定义， $o_{k}=\frac{1}{\Omega} e^{a_{k}},$ 其中 $\Omega=\sum_{i} e^{a_{i}} \Rightarrow \log o_{k}=a_{k}-\log \Omega$

则有 $\frac{\partial \log o_{k}}{\partial a_{l}}=1_{k= l}-\frac{1}{\Omega} \frac{\partial \Omega}{\partial a_{l}},$ 其中

$\frac{\partial \Omega}{\partial a_{l}}=\sum_{i} e^{a_{i}} 1_{i= l}=e^{a_{l}}, \Rightarrow \frac{\partial \log o_{k}}{\partial a_{l}}=1_{k= l}-\frac{e^{a_{l}}}{\Omega}=1_{k= l}-o_{l}$
$\frac{\partial L}{\partial a_{l}}=-\sum_{k} t_{k} \frac{\partial \log o_{k}}{\partial a_{l}}=-\sum_{k} t_{k}\left(1_{k= l}-o_{l}\right)=\sum_{k} t_{k}\left(o_{l}-1_{k= l}\right)=\sum_{k} t_{k} o_{l}-\sum_{k} t_{k} 1_{k= l}=o_{l}-t_{l}$
$a_{l}=\sum_{j} w_{j l} h_{j}+b_{l} \Rightarrow \frac{\partial a_{l}}{\partial w_{p q}}=\sum_{j} h_{j} \frac{\partial w_{j l}}{\partial w_{p q}}=\sum_{j} h_{j} 1_{j =p} 1_{l =q}=h_{p} 1_{l =q}$
$\frac{\partial L}{\partial w_{p q}}=\sum_{l} \frac{\partial L}{\partial a_{l}} \frac{\partial a_{l}}{\partial w_{p q}}=\sum_{l}\left(o_{l}-t_{l}\right) h_{p} 1_{l q}=\left(o_{q}-t_{q}\right) h_{p}$

在这里插入图片描述根据上图，带入实例中计算
根据 $\frac{\partial a_{l}}{\partial w_{p q}}=h_{p} 1_{l =q}$ ，有 $\frac{\partial a_{l}}{\partial w_{j k}}=h_{j} 1_{l= k}=\left\{\begin{array}{l}0, l \neq k \\ h_{j}, l=k\end{array}\right.$ ， $l$ 层为第 $k$ 层时
在网络层结构中只有相连接的神经元才有非零梯度回传
根据 $\frac{\partial L}{\partial w_{p q}}= h_{p}\left(o_{q}-t_{q}\right)$ ，有 $\frac{\partial L}{\partial w_{jk}}= h_{j}\left(o_{k}-t_{k}\right)$
定义交叉熵误差 $\delta_{k}=\frac{\partial L}{\partial a_{k}}=o_{k}-t_{k}$ ，则有 $\frac{\partial L}{\partial w_{j k}}=h_{j} \delta_{k}$

根据softmax的输入 $a_{l}=\sum_{l} w_{j l} h_{j}+b_{l}$ ， $\frac{\partial a_{l}}{\partial b_{k}}=1_{l k}=\left\{\begin{array}{l}0,l \neq k \\ 1,l=k\end{array}\right.$ ，偏置只和该神经元的激励有关
$\frac{\partial L}{\partial b_{k}}=\sum_{l} \frac{\partial L}{\partial a_{l}} \frac{\partial a_{l}}{\partial b_{k}}=\sum_{l}\left(o_{l}-t_{l}\right) \mathbb{1}_{l k}=o_{k}-t_{k}=\delta_{k}$
目标损失函数 $L$ 相对于偏置的梯度等于该神经元的误差

在这里插入图片描述根据上图，带入实例中计算

$z_j$ 为第一层网络结构的输出，也为激活函数的输入， $h_j$ 为激活函数输出。所以有 $z_j=\sum_i w_{ij}x_i+b_j$ ，则 $\frac{\partial z_{j}}{\partial w_{ij}}=x_i$
$a_k$ 为第二层网络结构的输出，也为softmax函数的输入有 $a_k=\sum_j w_{jk}h_j+b_k$ ，则 $\frac{\partial a_{k}}{\partial h_{j}}=w_{ij}$
激活函数为双曲正切函数 tanh，故 $\frac{\partial h_{j}}{\partial z_{j}}=\left(1+h_j\right)\left(1-h_j\right)$
$\frac{\partial L}{\partial w_{i j}}=\frac{\partial L}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}=x_{i} \frac{\partial L}{\partial z_{j}}=x_{i} \frac{\partial L}{\partial h_{j}} \frac{\partial h_{j}}{\partial z_{j}}$
$L$ 对 $h_j$ 的偏导和所有与 $h_j$ 相关连接的神经元有关， $\frac{\partial L}{\partial h_{j}}=\sum_{k} \frac{\partial L}{\partial a_{k}} \frac{\partial a_{k}}{\partial h_{j}}=\sum_{k} \delta_{k} \frac{\partial a_{k}}{\partial h_{j}}=\sum_{k} \delta_{k} w_{j k}$
$\frac{\partial L}{\partial w_{i j}}=x_{i} \sum_{k} \delta_{k} w_{j k}\left(1+h_{j}\right)\left(1-h_{j}\right)=x_{i} \delta_{j}$ ，定义 $\delta_{j} = \sum_{k} \delta_{k} w_{j k}\left(1+h_{j}\right)\left(1-h_{j}\right)$

因为 $\frac{\partial z_{j}}{\partial b_{j}}=1$ ，则有 $\frac{\partial L}{\partial b_{j}}=\frac{\partial L}{\partial z_{j}} \frac{\partial z_{j}}{\partial b_{j}}=\frac{\partial L}{\partial z_{j}}=\frac{\partial L}{\partial h_{j}} \frac{\partial h_{j}}{\partial z_{j}}$
$\frac{\partial L}{\partial b_{j}}=\sum_{k} \delta_{k} w_{j k}\left(1+h_{j}\right)\left(1-h_{j}\right)=\delta_{j}$

3.1.1 实例中计算梯度更新

将3.1章节红色部分公式带入网络结构中，计算梯度。
在这里插入图片描述

① 对第二层权值0.5 和0.4 进行梯度更新

权值0.5的梯度： $\frac{\partial L}{\partial w_{j k}}=h_{j} (o_k-t_k)=0.84*(0.57-0)=0.4788$
权值0.4的梯度： $\frac{\partial L}{\partial w_{j k}}=h_{j} (o_k-t_k)=0.84*(0.43-1)=-0.4788$
权值0.5的学习率随机设为0.1，进行梯度更新； $0.5 - 0.4788 * 0.1 = 0.45212$
权值0.4的学习率随机设为0.1，进行梯度更新； $0.4 - (- 0.4788) * 0.1 = 0.44788$
② 对第一层权值0.1 进行梯度更新
梯度： $\frac{\partial L}{\partial w_{i j}}=x_{i} \sum_{k} \delta_{k} w_{j k}\left(1+h_{j}\right)\left(1-h_{j}\right)=0.5*[(0.57-0)*0.5+(0.43-1)*0.4)]*(1+0.84)*(1-0.84)=0.0084$
学习率随机设为0.1，进行梯度更新； ${w_{ij}}^{'}=0.1 -0.0084*0.1=0.09916$

3.2 softmax + Square Error

输出层激活函数softmax，损失函数为Square Error时输出层的权值的梯度。

设softmax的输入为 $\vec{a}=(a_1,..., a_K)^T$ ，其中 $a_i=\sum_jw_{ji}h_j+b_i$
softmax的输出为 $\vec{o}=(o_1,..., o_K)^T$ ，其中 $o_i=\frac{e^{a_{i}}}{\sum_{k} e^{a_{k}}}$
设真实的标签为 $\vec{t}=(0,... ,0,1,0,... , 0)^T$
平方损失函数 $L=\frac{1}{2} \sum_{k}\left(o_{k}-t_{k}\right)^{2}$
- L对输入 $a_i$ 的导数
  $\frac{\partial L}{\partial a_{l}}=\frac{1}{2} \sum_{k} \frac{\partial\left(o_{k}-t_{k}\right)^{2}}{\partial a_{l}}=\frac{1}{2} \sum_{k} \frac{\partial\left(o_{k}-t_{k}\right)^{2}}{\partial o_{k}} \frac{\mathrm{d} o_{k}}{d a_{l}}=\sum_{k}\left(o_{k}-t_{k}\right) \frac{\mathrm{d} o_{k}}{d a_{l}}=\sum_{k}\left(o_{k}-t_{k}\right) o_{k}\left(1_{k =l}-o_{l}\right)$
$a_l=\sum_jw_{jl}h_j+b_l \Rightarrow \frac{\partial a_{l}}{\partial w_{p q}}=\sum_{j} h_{j} \frac{\partial w_{j l}}{\partial w_{p q}}=\sum_{j} h_{j} 1_{j= p} 1_{l= q}=h_{p} 1_{l= q}$
$\frac{\partial L}{\partial w_{p q}}=\sum_{l} \frac{\partial L}{\partial a_{l}} \frac{\partial a_{l}}{\partial w_{p q}}=\sum_{l} \sum_{k}\left(o_{k}-t_{k}\right) o_{k}\left(1_{k =l}-o_{l}\right) h_{p} 1_{l= q}=h_{p}\sum_{k}\left(o_{k}-t_{k}\right) o_{k}\left(1_{k =p}-o_{q}\right)$

在这里插入图片描述

$\frac{\partial L}{\partial w_{j k}}=h_{j} \sum_{l}\left(o_{l}-t_{l}\right) o_{l}\left(1_{l =k}-o_{k}\right)=h_{j} \delta_{k}$ ，定义平方误差： $\delta_{k}= \sum_{l}\left(o_{l}-t_{l}\right) o_{l}\left(1_{l =k}-o_{k}\right)$
因为 $a_{l}=\sum_{l} w_{j l} h_{j}+b_{l}$ ， $\frac{\partial a_{l}}{\partial b_{k}}=1_{l =k}$
$\frac{\partial L}{\partial b_{k}}=\sum_{l} \frac{\partial L}{\partial a_{l}} \frac{\partial a_{l}}{\partial b_{k}}=\frac{\partial L}{\partial a_{k}}=\delta_{k}$
$\frac{\partial L}{\partial w_{ij}}$ ， $\frac{\partial L}{\partial b_{j}}$ 不变
已知交叉熵误差： $\delta_{k}=\frac{\partial L}{\partial a_{k}}=o_k-t_k$ ，对比平方误差和交叉熵误差，可知交叉熵误差函数的误差简洁直观。

3.2.1 实例中计算梯度更新

将3.2章节红色部分公式带入网络结构中，计算梯度。
在这里插入图片描述
① 对第二层权值0.5 和0.4 进行梯度更新
使用交叉熵误差
权值0.5的梯度： $\frac{\partial L}{\partial w_{j k}}=h_{j} (o_k-t_k)=0.84*(0.57-0)=0.4788$
权值0.4的梯度： $\frac{\partial L}{\partial w_{j k}}=h_{j} (o_k-t_k)=0.84*(0.43-1)=-0.4788$
权值0.5的学习率随机设为0.1，进行梯度更新； $0.5 - 0.4788 * 0.1 = 0.45212$
权值0.4的学习率随机设为0.1，进行梯度更新； $0.4 - (- 0.4788) * 0.1 = 0.44788$
使用平方误差
平方误差 $\delta_{1}= \sum_{l}\left(o_{l}-t_{l}\right) o_{l}\left(1_{l =1}-o_{1}\right)=(0.57-0)*0.57*(1-0.57)+(0.43-1)*0.43*(0-0.43)=0.25$
权值0.5的梯度： $\frac{\partial L}{\partial w_{j k}}=h_{j} \sum_{l}\left(o_{l}-t_{l}\right) o_{l}\left(1_{l =k}-o_{k}\right)=h_j\delta_k=0.84*0.25=0.21$
权值0.5的学习率随机设为0.1，进行梯度更新； $0.5 - 0.21 * 0.1 = 0.479$

平方误差 $\delta_{2}= \sum_{l}\left(o_{l}-t_{l}\right) o_{l}\left(1_{l =2}-o_{2}\right)=(0.57-0)*0.57*(0-0.57)+(0.43-1)*0.43*(1-0.43)=-0.33$
权值0.4 的梯度： $\frac{\partial L}{\partial w_{j k}}=h_{j} \sum_{l}\left(o_{l}-t_{l}\right) o_{l}\left(1_{l =k}-o_{k}\right)=h_j\delta_k=0.84*(-0.33)=-0.28$
权值0.4的学习率随机设为0.1，进行梯度更新； $0.4 - (- 0.28) * 0.1 = 0.428$

② 对第一层权值0.1 进行梯度更新
使用交叉熵误差
梯度： $\frac{\partial L}{\partial w_{i j}}=x_{i} \sum_{k} \delta_{k} w_{j k}\left(1+h_{j}\right)\left(1-h_{j}\right)=0.5*[(0.57-0)*0.5+(0.43-1)*0.4)]*(1+0.84)*(1-0.84)=0.0084$
学习率随机设为0.1，进行梯度更新； ${w_{ij}}^{'}=0.1 -0.0084*0.1=0.09916$

使用平方误差
梯度： $\frac{\partial L}{\partial w_{i j}}=x_{i} \sum_{k} \delta_{k} w_{j k}\left(1+h_{j}\right)\left(1-h_{j}\right)=0.5*[\delta_1*0.5+\delta_2*0.4]*(1+0.84)*(1-0.84)=0.5*[0.25*0.5+(-0.33)*0.4]*1.84*0.16=-0.01$
学习率随机设为0.1，进行梯度更新； ${w_{ij}}^{'}=0.1 -(-0.01)*0.1=0.101$

4. BP算法

在线书籍《Neural Networks and Deep Learning》地址链接，代码仓库链接
BP算法核心是求解代价函数 C 相对于权重 w 和偏置 b 的偏导，即改变参数 w 和 b 时代价函数 C 的变化程度，揭示改变 w 和 b 如何影响网络的整体行为。

4.1 变量的说明

在这里插入图片描述
$w_{jk}^l$ : 第 $l - 1$ 层的第 $k$ 个神经元到第 $l$ 层的第 $j$ 个神经元的权重, $w$ 的下标记号虽用倒序，但利于后续推导。
$b_j^l$ : 第 $l$ 层第 $j$ 个神经元的偏置； $b^l$ : 第 $l$ 层的偏置向量；
$a_j^l$ : 第 $l$ 层第 $j$ 个神经元的激励（激活）； $a^l$ : 第 $l$ 层的激励向量；
$w^l$ : 第 $l$ 层的权值矩阵，矩阵第 $j$ 行第 $k$ 列为 $w_{jk}^l$
$a_{j}^{l}=\sigma\left(\sum_{k} w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}\right), \quad a^l=\sigma(w^la^{l-1}+b^l)$
定义中间变量 $z^l$ ： $z^{l} \equiv w^{l} a^{l-1}+b^{l}$ ， $z^l$ 为第 $l$ 层神经元的加权输入向量，其中 $z_j^l$ 为第 $l$ 层第 $j$ 个神经元的加权输入。
$z_{j}^{l}=\sum_{k} w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}, \quad a^{l}=\sigma\left(z^{l}\right)$
平均损失代价函数 $C$ ： $C=\frac{1}{2 n} \sum_{x}\left\|y(x)-a^{L}(x)\right\|^{2}$
$y = y (x)$ ，样本 $x$ 的标签向量（期望输出）
$a^L=a^L(x)$ ，样本 $x$ 的网络输出激励向量
$n$ ：样本数量， $L$ ：网络层数

4.2 代价函数假设与哈达玛积

在这里插入图片描述
代价函数表达为神经网络输出的函数（以一个样本为例）
$C=\frac{1}{2}\left\|y-a^{L}\right\|^{2}=\frac{1}{2} \sum_{j}\left(y_{j}-a_{j}^{L}\right)^{2}$
其中 $y_i$ 是输入 $x$ 的标签，属于固定值（常量）， $C$ 只是网络输出激励 $a$ 的函数。
哈达玛积：
定义设 $\in \mathbb{C}^{m \times n}$ 且 $A=[a_{i j}], B=\left[b_{i j}\right],$ 称 $m\cdot n$ 矩阵
$\left[\begin{array}{cccc} a_{11} b_{11} & a_{12} b_{12} & \cdots & a_{1 n} b_{1 n} \\ a_{21} b_{21} & a_{22} b_{22} & \cdots & a_{2 n} b_{2 n} \\ \vdots & \vdots & & \vdots \\ a_{m 1} b_{m 1} & a_{m 2} b_{m 2} & \cdots & a_{m n} b_{m n} \end{array}\right]$
为矩阵 A 与 B 的哈达玛(Hadamard)积，记作 $\circ B$ 。
若 s 和 t 是两个相同维度的向量，两者的哈达玛积为向量的逐乘。 $\odot t)_{j}=s_{j} t_{j}$ ，对应元素相乘。如： $\left[\begin{array}{l}1 \\ 2\end{array}\right] \odot\left[\begin{array}{l}3 \\ 4\end{array}\right]=\left[\begin{array}{l}1 * 3 \\ 2 * 4\end{array}\right]=\left[\begin{array}{l}3 \\ 8\end{array}\right]$

4.3 BP算法四大公式

在这里插入图片描述假设有一个精灵在第 $l$ 层的 $j$ 个神经元上捣鬼，在其加权输入上添加一个增量，使得该神经元输出激励变化如下， $\delta\left(z_{j}^{l}\right)$ 变为 $\delta\left(z_{j}^{l}+\Delta z_{j}^{l}\right)$ ；通过网络传播，代价函数变化量为： $\frac{\partial C}{\partial z_{j}^{l}} \Delta z_{j}^{l}$ 。
定义第 $l$ 层第 $j$ 个神经元的误差为： $\sigma_{j}^{l} \equiv \frac{\partial C}{\partial z_{j}^{l}}$

假如该梯度 $\frac{\partial C}{\partial z_j^l}$ 大（可为正数或者负数）
好的精灵会让代价 $C$ 减少，即会选择与梯度符号相反的增量。相反，如果梯度很小（接近于0），则扰动的增量无论如何取值，对代价函数的改变作用都很小，即该神经元相对于代价函数而言倾向于近似最优。
因此，该梯度可看作该神经元训练误差的表征。即梯度大表明还没训练好，稍微扰动下神经元激励就能造成代价 $C$ 的较大变化；梯度小表明训练较好，扰动神经元的激励值对代价 $C$ 的改变影响微弱。

BP算法先求出各层神经元的误差，再将误差关联到权重(和偏置)相对于代价 $C$ 的梯度， $\frac{\partial C}{\partial w_{jk}^l}$ 和 $\frac{\partial C}{\partial b_j^l}$ 。

4.3.1 BP算法四大公式（一）

输出层误差公式：（第 L 层（最后一层）误差）
$\delta_{j}^{L}=\frac{\partial C}{\partial a_{j}^{L}} \sigma^{\prime}\left(z_{j}^{L}\right) \qquad\qquad (BP1)$
公式右边第一项代表代价函数 $C$ 相对于输出层第 $j$ 个神经元激励 $a$ 的变化程度；第二项代表激励相对于加权输入的变化程度。
使用哈达玛积，可以写为矩阵形式：
$\delta^{L}=\nabla_{a} C \odot \sigma^{\prime}\left(z^{L}\right) \qquad\qquad (BP1a)$
向量 $\nabla_{a} C$ 的 $j$ 个元素为 $\frac{\partial C}{\partial a_j^L}$
对于平方差损失函数有： $\nabla_{a} C=(a^L-y)$ ， $\delta^L=(a^L-y) \odot \sigma^{\prime}\left(z^{L}\right)$
证明：

误差 $\sigma_j^L$ 的定义： $\delta_{j}^{L}=\frac{\partial C}{\partial a_{j}^{L}} \frac{\partial a_{j}^{L}}{\partial z_{j}^{L}}$
非线性激活 $a_{j}^{L}=\sigma\left(z_{j}^{L}\right)$
则 $\delta_{j}^{L}=\frac{\partial C}{\partial a_{j}^{L}} \sigma^{\prime}\left(z_j^{L}\right)$

4.3.2 BP算法四大公式（二）

由后一层误差推导本层误差的公式
$\delta^{l}=\left(\left(w^{l+1}\right)^{T} \delta^{l+1}\right) \odot \sigma^{\prime}\left(z^{l}\right) \qquad\qquad (BP2)$
在这里插入图片描述假设已经知道第 $l + 1$ 层的误差，通过 $l + 1$ 层和 $l$ 层之间的权值矩阵 $w$ ，将误差进行回传，得到第 $l$ 层的误差。
结合BP1和BP2，可以得到网络每一层的误差。
证明：

根据误差 $\delta_k^{l+1}$ 定义， $\delta_k^{l+1}=\frac{\partial C}{\partial z_{k}^{l+1}}$
$\delta_{j}^{l}=\frac{\partial C}{\partial z_{j}^{l}}=\sum_{k} \frac{\partial C}{\partial z_{k}^{l+1}} \frac{\partial z_{k}^{l+1}}{\partial z_{j}^{l}}=\sum_{k} \frac{\partial z_{k}^{l+1}}{\partial z_{j}^{l}} \delta_{k}^{l+1}$
加权输入 $z_{k}^{l+1}$ 有， $z_{k}^{l+1}=\sum_{j} w_{k j}^{l+1} a_{j}^{l}+b_{k}^{l+1}=\sum_{j} w_{k j}^{l+1} \sigma\left(z_{j}^{l}\right)+b_{k}^{l+1}$
则， $\frac{\partial z_{k}^{l+1}}{\partial z_{j}^{l}}=w_{k j}^{l+1} \sigma^{\prime}\left(z_{j}^{l}\right)$ ， $\delta_{j}^{l}=\sum_{k}w_{k j}^{l+1} \delta_{k}^{l+1}\sigma^{\prime}\left(z_{j}^{l}\right)$

4.3.3 BP算法四大公式（三）

代价函数 $C$ 相对于网络中任意偏置 $b$ 梯度（即变化率）的公式
$\frac{\partial C}{\partial b_{j}^{l}}=\delta_{j}^{l} \qquad\qquad (BP3)$
矩阵可表达为： $\frac{\partial C}{\partial b}=\delta$
证明：

加权输入 $z_j^l$ 定义， $z_{j}^{l}=\sum_{k} w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}$ ，有 $\frac{\partial z_j^l}{\partial b_{j}^{l}}=1$
$\frac{\partial C}{\partial b_{j}^{l}}=\frac{\partial C}{\partial z_{j}^{l}} \frac{\partial z_{j}^{l}}{\partial b_{j}^{l}}=\frac{\partial C}{\partial z_{j}^{l}}=\delta_{j}^{l}$

4.3.4 BP算法四大公式（四）

代价函数 $C$ 相对于网络中任意权值 $w$ 梯度（即变化率）的公式
$\frac{\partial C}{\partial w_{jk}^{l}}=a_k^{l-1}\delta_{j}^{l} \qquad\qquad (BP4)$
去掉繁琐的下标，可表达为： $\frac{\partial C}{\partial w}=a_{\mathrm{in}} \delta_{\mathrm{out}}$
在这里插入图片描述乘积第一项 $a_{in}$ 表示输入权值 $w$ 的上层神经元激励；第二项表示权值 $w$ 输出到下层神经元的误差。
如果 $a_{in}$ 接近于0，权值梯度也会接近于零，此时称该神经元权值学习慢，即梯度下降时更新少。激励值过低的神经元学习慢（ learn slowly）。
证明：

加权输入 $z_j^l$ 定义， $z_{j}^{l}=\sum_{k} w_{j k}^{l} a_{k}^{l-1}+b_{j}^{l}$ ，有 $\frac{\partial z_{j}^{l}}{\partial w_{j k}^{l}}=a_{k}^{l-1}$
$\frac{\partial C}{\partial w_{j k}^{l}}=\frac{\partial C}{\partial z_{j}^{l}} \frac{\partial z_{j}^{l}}{\partial w_{j k}^{l}}=\delta_{j}^{l} a_{k}^{l-1}$