2020-12-01

最新推荐文章于 2022-10-27 17:21:06 发布

淘气淘的宝宝

最新推荐文章于 2022-10-27 17:21:06 发布

阅读量464

点赞数

分类专栏： pmp学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/csdn_kelly/article/details/110449241

版权

pmp学习笔记专栏收录该内容

23 篇文章 0 订阅

订阅专栏

1.激活函数有什么作用，常用的的激活函数

激活函数的作用是整合隐藏层每一个节点的输出结果。如果不适用激活函数，每一层节点的输入都是上一层输出的线性函数，无论经过多少层都是这样，与没有隐藏层效果相当，类似原始感知机，那么网络的表达能力相当有限。引入非线性函数作为激活函数之后，增强了神经网络的表达能力。

常用的激活函数有Sigmoid、Tanh、ReLU、Leaky ReLU（线性修正的ReLu函数）

1）sigmoid函数：

将回归结果映射到0-1之间，适合用做二分类问题以及非线性表达；

但是缺点也很明显：

前后向传播要做指数计算，计算耗费资源多；

函数梯度包和导致神经网络反向计算时出现梯度消失的现象，当神经元的激活在接近于0和1的位置会饱和，这些区域梯度趋近于0，从而导致梯度消失，几乎没有信号传回上一层；

sigmoid函数的输出不是零中心的，因为如果输入神经元的数据总是正数，那么关于w的梯度在反向传播中，将会出现要么全是正数，要么全是负数，会导致梯度下降权重更新时出现Z字型的下降(ZigZag现象)

2）Tanh函数：

Tanh函数的提出解决了sigmoid函数的输出不是0中心的问题，但是它仍然存在两个问题：梯度饱和、计算复杂

3）ReLU函数:

ReLU函数相较于sigmoid和tanh函数来说对于梯度下降收敛有巨大的作用，很好的解决了梯度消失问题，同时函数的前反向传播计算效率也高，但仍然存在缺点：

ReLU输出不是零中心的，梯度下降权重更新时出现Z字型的下降(ZigZag现象)；存在小于等于0的一侧，神经元坏死

4）Leak ReLu函数：

通常 $\varepsilon$ 取很小的值，比如0.01，这样可以确保符数信息没有全部丢失，解决了神经元坏死现象，并在一定程度上缓解了数据均值不为0导致的ZigZag现象

2.怎么解决梯度消失问题

梯度消失的原因主要有两个：

1）在深度网络中，网络学习是通过反向传播的链式求导法则来求Loss对某个参数的偏导数，然后进行参数更新。

2）当网络层数很深，而当前的参数所在层又靠近网络的输入时，求导链会很长，如果其中的某些中间结果的值很小，并经过链式的累成作用，最终求得的梯度值就会接近于0，而导致参数得不到更新。

可通过以下方式解决：

选择合适的激活函数，比如ReLU和Leaky Relu。因为sigmoid和tanh会出现较大的梯度饱和区域，使梯度值为0

采用batch normalization层，对网络中计算得到的中间值进行归一化，是的中间计算结果的取值在均值为0，方差为1这样的分布内，那么此时，在sigmoid和tanh中，函数取值处于中间变化较大的部分，梯度取值也相对较大，从而可以防止过拟合。

使用残差结构，残差结构相当于给靠近输入端的网络层提供一个与靠近输出端的直连操作，在反向传播计算时，减少了梯度传播的路径长度，以缓解梯度消失问题

在RNN网络中，可以通过使用LSTM来解决信息遗忘和梯度传播问题
3.什么是端到端学习

在传统的机器学习系统中，我们通常需要对数据进行多阶段的处理，在每个阶段使用人工特征提取，数据标注或者独立的机器学习模型来完成特定的任务；而在端到端学习系统中，可以通过训练一个大的神经网络来完成从原始数据的输入到最终结果输出的整个任务，端到端的学习可以大大减少人工参与，简化解决方案部署流程。

现实中的任务通常非常复杂，将复杂任务拆分成简单的任务解决通常能够达到很好的效果，比如在做人脸识别时，通常会把这个任务分成3个子任务：人脸检测、人脸关键点对齐矫正、基于切分后的人脸图像的人脸识别。如果要变成端到端的任务，需要大量的从输入数据到输出结果的数据集，而现实中我们并没有这么大量数据，所以这个任务不适用，而有些我们已经有大量数据的任务中，比如语音识别并转换成文本任务中，端到端学习就表现得很好。
4.Softmax的原理是什么？有什么作用？