深度学习神经网络

最新推荐文章于 2022-11-16 14:30:28 发布

puspos

最新推荐文章于 2022-11-16 14:30:28 发布

阅读量601

点赞数

分类专栏：电脑文章标签：神经网络深度学习 pytorch

本文链接：https://blog.csdn.net/puspos/article/details/119279469

版权

本文介绍了深度学习中激活函数的作用，包括sigmoid、relu和softmax等，讨论了为何引入非线性以增加模型复杂度。同时，解释了损失函数如均值平方差和交叉熵的意义，以及它们在凸函数和平面等高线图中的表现。此外，还探讨了梯度下降法、梯度消失和梯度爆炸问题以及解决方案，最后涉及卷积神经网络的基础知识，如卷积层、池化层和全连接层的概念。

摘要由CSDN通过智能技术生成

基础知识

激活函数：引入非线性增加模型复杂度，不改变数据维度，a=激活函数(b) a、b维度一样

取值[0,1]，如leru取值[0,正无穷)可归一化成[0,1]，符合概率特点

为什么要引入？

线性函数只能进行线性划分，不能解决复杂的：如异或xor问题。
多层网络都能化成一层，为了增加复杂度；
在这里插入图片描述

在这里插入图片描述

sigmoid函数：取值 [0,1]

sigmoid函数：函数值处于[0,1]，单调递增，且导数为饱和函数。只要满足三个条件，就是sigmoid函数，有很多种，如下图
在这里插入图片描述
其中最出名的是logistic函数【可见我的逻辑斯蒂回归博文，是因为正太分布而产生的函数】，直接把它叫做sigmoid函数：取值[0,1]，导数取值[0,0.25]

在这里插入图片描述

relu：倒数函数不连续取值[0,正无穷]，导数取值0或1

在这里插入图片描述

softmax

$\hat{y_i}=p(y=i)=\sigma(i)=\frac{e^{ {z_i}}}{\sum\limits_j^{n-1}{e^{ {z_j}}}}\\ n个类，z=wx+b，\hat{y}=\sigma(z)，\hat{y_i}为对是属于i类的预测结果\\$
在这里插入图片描述
多分类时，需要对每个类别输出的概率满足： $p_i>0，且\sum{p_i}=1$
y的标签编码方式为one-hot【只有一个是1，其余是0，因为最终结果只可能属于某一个类，标签的one-hot算法完成的，输入仍为原始标签】

为什么引入？

第一，节省计算量：采用sigmoid等函数，算激活函数时（指数运算），计算量大，反向传播求误差梯度时，求导涉及除法，计算量相对大，而采用Relu激活函数，整个过程的计算量节省很多。
第二，防止simoid反向传播时出现的梯度消失。对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失），从而无法完成深层网络的训练。
第三，Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生

如何用？：多层神经网络的隐藏层

ReLU 主要用在神经网络中的隐藏层作为激活函数，很少用在输出层，输出层可用sigmoid或softmax等。

relu把负值全变成0，在隐藏层作为激活函数时，可造成网络的稀疏性，加快训练过程。在最后一层作为激活函数时，所有的负值都被丢掉，丢失了大量的信息，相当于把学到的结果丢了一半，此时再进行预测效果大打折扣。

sigmoid一般用于二分类最后一层，softmax用于多分类最后一层。

选定优先级

relu>tanh>sigmoid
后两个导函数为饱和函数（类似正太分布），有学习饱和问题：接近饱和区时，导数趋于0，这种情况会造成信息丢失
问题类型最后一层激活损失函数二分类问题 sigmoid binary_crossentropy多分类、单标签问题 softmax categorical_crossentropy多分类、多标签问题 sigmoid binary_crossentropy回归到任意值无 mse回归到0-1范围内的值 sigmoid mse或binary_crossentropy

损失函数

用真实值与预测值之间的差距【距离差距，分布差距】来指导模型收敛的方向。

凸函数？

平方差/均值平方差：凸函数
交叉熵（逻辑回归）：凸函数
神经网络：非凸函数

等高线

梯度的导数越大，越陡，走一步造成的高度差越大，等高线越密
在这里插入图片描述

损失函数是凸函数时

损失函数3D图

在这里插入图片描述

3D图等高线图，压缩到 $\theta_1O\theta_2平面$ ：可知，中心处损失最低

在这里插入图片描述

设损失函数 $y=f(x_1,x_2)$ 是个曲面，被平面c(为常数)所截曲线方程为：
$y=f(x_1,x_2)\\ y=c\\$
该曲线在 $x_1Ox_2平面上投影为一条曲线：f(x_1,x_2)=c，即为y=f(x_1,x_2)在x_1Ox_2平面上的一条等高线：由上图可知，中心处损失最低$
在这里插入图片描述

$在等高线f(x_1,x_2)上任一点的切线斜率为：\frac{dx_2}{dx_1}\\ 且由上面隐函数求导可知：\frac{dx_2}{dx_1}=-\frac{f_{x_1}}{f_{x_2}}\\ 则在该处的法线斜率为：\frac{-1}{\frac{dx_2}{dx_1}}=\frac{-1}{-\frac{f_{x_1}}{f_{x_2}}}=\frac{f_{x_2}}{f_{x_1}}\\ 由上面梯度为：(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2})=\frac{\partial f}{\partial x_1}\vec{i} +\frac{\partial f}{\partial x_2}\vec{j}\\ 在x_1Ox_2平面的梯度方向为：\frac{\partial f}{\partial x_2}/\frac{\partial f}{\partial x_1}，并指向远离圆圈中心的方向【梯度方向是函数值增大的方向，对应的导数为正】$

均值平方差（MSE）：真实值和预测值之间的距离的差距

一般：回归任务使用

对目标函数是sigmoid函数时，损失函数采用MSE的情况，其偏导值在输出概率值接近0或者接近1的时候非常小，这可能会造成模型刚开始训练时，偏导值几乎消失
$J_{M S E}=\frac{1}{N} \sum_{i=1}^{N}\left(\hat{y}_{i}-y_{i}\right)^{2}$