卷积神经网络基础2

最新推荐文章于 2024-09-09 09:47:53 发布

自在极意功登峰造极

最新推荐文章于 2024-09-09 09:47:53 发布

阅读量886

点赞数 17

分类专栏：深度学习文章标签： cnn 人工智能神经网络

本文链接：https://blog.csdn.net/qq_51872445/article/details/139859255

版权

深度学习专栏收录该内容

16 篇文章 3 订阅

订阅专栏

一、误差得计算

以三层的神经网络为例，如下图：
在这里插入图片描述

其中，第一层为输入层，包含 $x _{1}$ 和 $x _{2}$ 两个节点；中间层为隐藏层，包含 $\sigma_{1}$ 、 $\sigma_{2}$ 、 $\sigma_{3}$ 三个节点；最后一层为输出层，包含 $y_{1}$ 和 $y_{2}$ 两个节点。另外， $\omega _{(11)}^{(1)}$ 代表权重，其上标 ${(1)}$ 中，1代表所在的层数；其下标 ${(11)}$ 中，第一个1代表上一层的第1个节点，第二个1代表本层的第1个节点；最后， $b$ 代表偏置。

具体而言，输出层 $y_{1}$ 和 $y_{2}$ 的计算如下：

$\begin{align*} y_1=\omega_{(11)}^{(2)}\cdot \sigma_{1}(x_1\cdot\omega_{(11)}^{(1)}+x_2\cdot\omega_{(21)}^{(1)}+b_1^{(1)}) \\+\omega_{(21)}^{(2)}\cdot \sigma_{2}(x_1\cdot\omega_{(12)}^{(1)}+x_2\cdot\omega_{(22)}^{(1)}+b_2^{(1)}) \\+\omega_{(31)}^{(2)}\cdot \sigma_{3}(x_1\cdot\omega_{(13)}^{(1)}+x_2\cdot\omega_{(23)}^{(1)}+b_3^{(1)}) \\+b_1^{(2)}\tag{1} \end{align*}$
$\begin{align*} y_2=\omega_{(12)}^{(2)}\cdot \sigma_{1}(x_1\cdot\omega_{(11)}^{(1)}+x_2\cdot\omega_{(21)}^{(1)}+b_1^{(1)}) \\+\omega_{(22)}^{(2)}\cdot \sigma_{2}(x_1\cdot\omega_{(12)}^{(1)}+x_2\cdot\omega_{(22)}^{(1)}+b_2^{(1)}) \\+\omega_{(32)}^{(2)}\cdot \sigma_{3}(x_1\cdot\omega_{(13)}^{(1)}+x_2\cdot\omega_{(23)}^{(1)}+b_3^{(1)}) \\+b_2^{(2)}\tag{2} \end{align*}$

$y_{1}$ 和 $y_{2}$ 得到之后，通过 $S o f t ma x$ 函数输出最后的 $O_{1}$ 和 $O_{2}$ （经过 $S o f t ma x$ 处理后所有输出节点概率和为1），具体计算如下：

$\begin{align*}O_1=\frac{e^{y_1}}{e^{y_1}+e^{y_2}} \tag{3} \end{align*}$

$\begin{align*}O_2=\frac{e^{y_2}}{e^{y_1}+e^{y_2}} \tag{4} \end{align*}$

接下来进行误差的计算，即计算交叉熵损失（Cross entropy loss），有如下两种计算方式：

针对多分类问题（ $S o f t ma x$ 输出，所有输出概率和为1）

$\begin{align*} H=- {\textstyle \sum_{i}} O_i^\ast log(O_i) \tag{5} \end{align*}$

针对二分类问题（ $S i g m o i d$ 输出，每个输出节点之间互不相干）

$\begin{align*} H=-\frac{1}{N} {\textstyle \sum_{i=1}^{N}} [O_i^\ast log(O_i)+(1-O_i^\ast)log(1-O_i)] \tag{6} \end{align*}$

其中， $O_i^\ast$ 为真实标签值， $O_i$ 为预测值，默认 $l o g$ 以 $e$ 为底，即使用 $l n$ 。

因为示例为二分类问题，故其误差的计算公式如下：

$\begin{align*} Loss=-(O_1^\ast log(O_1)+O_2^\ast log(O_2)) \tag{7} \end{align*}$

二、误差的反向传播

以对 $\omega _{(11)}^{(2)}$ 的更新为例，即要求 $L oss$ 对其的梯度（偏导数），为方便计算，首先将 $(1)$ 式简化为 $(8)$ 式，如下：

$\begin{align*} y_1=\omega_{(11)}^{(2)}\cdot a_1+\omega_{(21)}^{(2)}\cdot a_2+\omega_{(31)}^{(2)}\cdot a_3 + b_1^{(2)}\tag{8} \end{align*}$
具体梯度（偏导数）的计算如下：

$\begin{align*} &\quad \frac{\partial Loss}{\partial \omega_{11}^{(2)}} = \frac{\partial Loss}{\partial y_1} \cdot \frac{\partial y_1}{\partial \omega_{11}^{(2)}} \\&\quad =(\frac{\partial Loss}{\partial O_1} \cdot \frac{\partial O_1}{\partial y_1} +\frac{\partial Loss}{\partial O_2} \cdot \frac{\partial O_2}{\partial y_1}) \cdot \frac{\partial y_1}{\partial \omega_{11}^{(2)}} \\&\quad =[(-O_1^*\cdot \frac{1}{O_1})O_1(1-O_1)+(-O_2^*\cdot \frac{1}{O_2})O_1(O_1-1)]\cdot a_1 \\&\quad =[-O_1^*\cdot \frac{1}{O_1}\cdot O_1\cdot O_2-O_2^*\cdot \frac{1}{O_2}\cdot (-O_1\cdot O_2)]\cdot a_1 \\&\quad =(O_2^*\cdot O_1-O_1^*\cdot O_2)\cdot a_1 \tag{9} \end{align*}$

三、权重的更新

得到梯度以后，便可以进行权重的更新，具体更新如下：

$\begin{align*} \omega_{11}^{(2)}(new)=\omega_{11}^{(2)}(old)-learning_{rate}\cdot gradient \tag{10} \end{align*}$

其中， $\omega_{11}^{(2)}(new)$ 为新的权重值； $\omega_{11}^{(2)}(old)$ 为旧的权重值； $learning_{rate}$ 为设置的学习率； $g r a d i e n t$ 为梯度，即 $\frac{\partial Loss}{\partial \omega_{11}^{(2)}}$ 。

在实际应用中往往不可能一次性将所有数据载入内存（算力也不够），所以只能分批次（batch）训练，分批次训练与整体训练区别如下：
在这里插入图片描述

为了使网络更快的收敛（加速分批次样本的求解），接下来引入常见的几种优化器（optimizer）：

SGD 优化器（Stochastic Gradient Descent，随机梯度下降）
$\begin{align*} \omega_{t+1}=\omega_{t}-\alpha \cdot g(\omega _t) \tag{11} \end{align*}$
其中， $\alpha$ 为学习率， $g(\omega_t)$ 为 $t$ 时刻对参数 $\omega_t$ 的损失梯度。该算法的缺点是：容易受样本噪声影响；可能陷入局部最优解。
SGD+Momentum（带动量的随机梯度下降）
$\begin{align*}&\quad \nu _t=\eta \cdot \nu _{t-1}+\alpha \cdot g(\omega _t)\tag{12} \\ &\quad \omega _{t+1}=\omega _t-\nu _t\tag{13} \end{align*}$
其中， $\alpha$ 为学习率， $g(\omega_t)$ 为 $t$ 时刻对参数 $\omega_t$ 的损失梯度， $\eta(0.9)$ 为动量系数。
Adagrad 优化器（自适应学习率）
$\begin{align*} &\quad s_t=s_{t-1}+g(\omega _t)\cdot g(\omega _t)\tag{14} \\ &\quad \omega _{t+1}=\omega _t-\frac{\alpha }{\sqrt{s_t+\varepsilon } } \cdot g(\omega _t)\tag{15} \end{align*}$
其中， $\alpha$ 为学习率， $g(\omega_t)$ 为 $t$ 时刻对参数 $\omega_t$ 的损失梯度， $\varepsilon(10^{-7})$ 为防止分母为零的参数。这里需要注意，学习率下降的太快，可能导致还没有收敛就停止训练。
RMSProp 优化器（自适应学习率）
$\begin{align*} &\quad s_t=\eta \cdot s_{t-1}+ (1-\eta )\cdot g(\omega _t)\cdot g(\omega _t)\tag{16} \\ &\quad \omega _{t+1}=\omega _t-\frac{\alpha }{\sqrt{s_t+\varepsilon } } \cdot g(\omega _t)\tag{17} \end{align*}$
其中， $\alpha$ 为学习率， $g(\omega_t)$ 为 $t$ 时刻对参数 $\omega_t$ 的损失梯度， $\eta(0.9)$ 为动量系数， $\varepsilon(10^{-7})$ 为防止分母为零的参数。
Adam 优化器（自适应学习率）
$\begin{align*} &\quad m_t = \beta_1 \cdot m_{t-1} + (1-\beta_1) \cdot g(\omega_t)\tag{18} \\&\quad \nu_t = \beta_2 \cdot \nu_{t-1} + (1-\beta_2) \cdot g(\omega_t) \cdot g(\omega_t)\tag{19} \\&\quad \hat{m_t}=\frac{m_t}{1-\beta_1^t} \tag{20} \\&\quad \hat{\nu_t}=\frac{\nu_t}{1-\beta_2^t} \tag{21} \\&\quad \omega _{t+1}=\omega _t-\frac{\alpha }{\sqrt{\hat{\nu_t}+\varepsilon } } \cdot \hat{m_t} \tag{22} \end{align*}$
其中， $\alpha$ 为学习率， $g(\omega_t)$ 为 $t$ 时刻对参数 $\omega_t$ 的损失梯度， $\beta_1(0.9)$ 、 $\beta_2(0.999)$ 为控制衰减速度的参数， $\varepsilon(10^{-7})$ 为防止分母为零的参数。

自在极意功登峰造极

关注

17
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
卷积神经网络基础2

以三层的神经网络为例，如下图：其中，第一层为输入层，包含x1和x2两个节点；中间层为隐藏层，包含σ1σ2σ3三个节点；最后一层为输出层，包含y1和y2两个节点。另外，ω111代表权重，其上标1中，1代表所在的层数；其下标11中，第一个1代表上一层的第1个节点，第二个1代表本层的第1个节点；最后，b代表偏置。具体而言，输出层y1和y2y1ω112⋅σ1x1⋅ω111x。
复制链接

扫一扫

专栏目录