神经网络

最新推荐文章于 2024-08-05 17:44:35 发布

JeJe_33

最新推荐文章于 2024-08-05 17:44:35 发布

阅读量275

点赞数 2

分类专栏： ML 文章标签：神经网络算法人工智能 python

本文链接：https://blog.csdn.net/qq_44807945/article/details/113924660

版权

ML 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

本文详细介绍了神经网络的基础，包括前向传导算法、常见激活函数如sigmoid、ReLU等，以及损失函数如MSE和交叉熵。此外，还探讨了反向传播算法在权重更新中的应用，并列举了多种优化算法，如梯度下降、动量更新和Adam。最后，提到了分批处理在训练中的作用。

摘要由CSDN通过智能技术生成

1.简介

神经网络可以看成是含有多个变换层的感知机模型，变换层会把上一层的输出当成输入，经过一番内部护理后把输出传给下一层。
一般而言，神经网络算法包含以下三部分

将输入经过多层变换层后得到输出
将输出与真值比较得到损失函数梯度
利用梯度更新模型各参数

2.前向传导算法

即将激活值从前向后传导，对于层 $L_i$ ,接收输入值为 $u^i=v^{i-1}\times w^{i-1}+b^{i-1}$ ,经过激活函数后输出 $v^i=\phi{(u^i)}$

3.常见激活函数

3.1逻辑函数sigmoid
$\phi(x)=\frac{1}{1+e^{-x}}$

3.2正切函数
$\phi(x)=tanh(x)=\frac{1-e^{-2x}}{1+e^{-2x}}$

3.3线性整流函数(Rectified Linear Unit,ReLU)
$\phi(x)=max(0,x)$

3.4ELU函数(Exponential Linear Unit)
$\phi(x)=\left\{ \begin{aligned} x, \; x\ge 0\\ a(e^x-1),x<0 \end{aligned} \right.$

3.5Softplus函数
$\phi(x)=ln(1+e^x)$

3.6恒同映射(Identity)
$\phi(x)=x$

3.7softmax映射
$\phi(x)=\frac{e^{x_i}}{\sum e^{x_i}}$

4.常用损失函数

4.1距离损失函数
$L(y,G(x))=[y-G(x)]^2$
即最小平方误差准则MSE

4.2交叉熵损失函数
该损失函数要求G(x)取值在(0,1)之间
$L (y, G (x)) = - [y l n G (x) + (1 - y) l n (1 - G (x))]$

4.3log-likelihood损失函数
要求G(x)是一个概率向量，一般与softmax激活函数共同使用,可以认为是交叉熵的一种特殊形式
$y_p=\left\{ \begin{aligned} 1,p=k\\ 0,p!=k \end{aligned} \right.$
即 $L(y,G(x))=-lnv_k$

5.反向传播算法(BP算法，Backpropagation)

反向传播即将梯度一路往后（靠近输入层）传播，通过损失函数确定，梯度下降方法更新权重
梯度： $\delta^{(i)}=\frac{\delta L(x)}{\delta u^{(i)}}$
若为最后一层： $\delta^{(m)}=\frac{\delta L(y,v^{(m)})}{v^{(m)}}*\phi'(u^{(m)})$
否则反向传导： $\delta^{(i)}=\delta ^{(i+1)}\times w^{(i)T}*\phi'(u^{(i)})$
因此更新梯度：
$w^{(i-1)}_{pq}=w^{(i-1)}-\eta\delta^{i}v^{(i-1)}$

6.损失函数的选择

为避免梯度爆炸/梯度消失的问题，使得梯度下降尽量平稳，对于损失函数与激活函数的组合需要注意
6.1sigmoid系以外+距离损失函数MSE
然而，MSE往往不能很好地解决问题

6.2 sigmoid+cross entropy交叉熵

6.3softmax+cross entopy/log-likelihood
softmax更像是进行标准化的一个函数
$v_n^{(m)}=\frac{e^{u_n^m}}{\sum_n{e^{u^m_n}}}$

7.常见优化算法

7.1 Vanilla Update
即梯度下降法的普通形式，通常以MBGD(mini batch)小批量梯度下降法形式出现
$\triangle^*w_t = \triangle w_t$

7.2 Momentum Update
$\triangle^*w_t = \triangle w_t-\frac{\rho}{\eta}v_{(t-1)}$
ρ视为惯性，逐步增大到0.99，即可以认为逐步减小当前方向的下降速度

7.3 Nesterov Momentum Update
可以认为是momentum方法的改进，其使用当前速度作为更新值
$v_t=\rho v_{t-1}-\eta \triangle w_t$
$\triangle w_t=w_{t-1}+\rho v_t-\eta \triangle w_t$

7.4 RMSProp
通过调整学习速率进行优化
中间变量 $\bigtriangledown^2=\rho \bigtriangledown^2+(1-\rho)\triangle^2 w_t$
衰减系数 $\rho$ 反映较早的梯度对当前梯度的影响，ρ越小影响越小
更新值
$\triangle w_t=\frac{\triangle w_t}{\bigtriangledown+\epsilon}$

7.5Adam
同时更新方向以及学习速率：
$\triangle = \beta_1 \triangle+(1-\beta_1)\triangle w_t$
$\bigtriangledown^2=\beta_2\bigtriangledown^2+(1-\beta_2)\triangle^2w_t$
$\triangle w_t=\frac{\triangle}{\bigtriangledown+\epsilon}$