2020-12-01

1.激活函数有什么作用,常用的的激活函数 

激活函数的作用是整合隐藏层每一个节点的输出结果。如果不适用激活函数,每一层节点的输入都是上一层输出的线性函数,无论经过多少层都是这样,与没有隐藏层效果相当,类似原始感知机,那么网络的表达能力相当有限。引入非线性函数作为激活函数之后,增强了神经网络的表达能力。

常用的激活函数有Sigmoid、Tanh、ReLU、Leaky ReLU(线性修正的ReLu函数)

1)sigmoid函数:

将回归结果映射到0-1之间,适合用做二分类问题以及非线性表达;

但是缺点也很明显:

前后向传播要做指数计算,计算耗费资源多;

函数梯度包和导致神经网络反向计算时出现梯度消失的现象,当神经元的激活在接近于0和1的位置会饱和,这些区域梯度趋近于0,从而导致梯度消失,几乎没有信号传回上一层;

sigmoid函数的输出不是零中心的,因为如果输入神经元的数据总是正数,那么关于w的梯度在反向传播中,将会出现要么全是正数,要么全是负数,会导致梯度下降权重更新时出现Z字型的下降(ZigZag现象)

2)Tanh函数:

Tanh函数的提出解决了sigmoid函数的输出不是0中心的问题,但是它仍然存在两个问题:梯度饱和、计算复杂

3)ReLU函数:

ReLU函数相较于sigmoid和tanh函数来说对于梯度下降收敛有巨大的作用,很好的解决了梯度消失问题,同时函数的前反向传播计算效率也高,但仍然存在缺点:

ReLU输出不是零中心的,梯度下降权重更新时出现Z字型的下降(ZigZag现象);存在小于等于0的一侧,神经元坏死

4)Leak ReLu函数:

通常\varepsilon取很小的值,比如0.01,这样可以确保符数信息没有全部丢失,解决了神经元坏死现象,并在一定程度上缓解了数据均值不为0导致的ZigZag现象

2.怎么解决梯度消失问题 

梯度消失的原因主要有两个:

1)在深度网络中,网络学习是通过反向传播的链式求导法则来求Loss对某个参数的偏导数,然后进行参数更新。

2)当网络层数很深,而当前的参数所在层又靠近网络的输入时,求导链会很长,如果其中的某些中间结果的值很小,并经过链式的累成作用,最终求得的梯度值就会接近于0,而导致参数得不到更新。

可通过以下方式解决:

       选择合适的激活函数,比如ReLU和Leaky Relu。因为sigmoid和tanh会出现较大的梯度饱和区域,使梯度值为0

      采用batch normalization层,对网络中计算得到的中间值进行归一化,是的中间计算结果的取值在均值为0,方差为1这样的分布内,那么此时,在sigmoid和tanh中,函数取值处于中间变化较大的部分,梯度取值也相对较大,从而可以防止过拟合。

       使用残差结构,残差结构相当于给靠近输入端的网络层提供一个与靠近输出端的直连操作,在反向传播计算时,减少了梯度传播的路径长度,以缓解梯度消失问题

       在RNN网络中,可以通过使用LSTM来解决信息遗忘和梯度传播问题
3.什么是端到端学习 

在传统的机器学习系统中,我们通常需要对数据进行多阶段的处理,在每个阶段使用人工特征提取,数据标注或者独立的机器学习模型来完成特定的任务;而在端到端学习系统中,可以通过训练一个大的神经网络来完成从原始数据的输入到最终结果输出的整个任务,端到端的学习可以大大减少人工参与,简化解决方案部署流程。

现实中的任务通常非常复杂,将复杂任务拆分成简单的任务解决通常能够达到很好的效果,比如在做人脸识别时,通常会把这个任务分成3个子任务:人脸检测、人脸关键点对齐矫正、基于切分后的人脸图像的人脸识别。如果要变成端到端的任务,需要大量的从输入数据到输出结果的数据集,而现实中我们并没有这么大量数据,所以这个任务不适用,而有些我们已经有大量数据的任务中,比如语音识别并转换成文本任务中,端到端学习就表现得很好。
4.Softmax的原理是什么?有什么作用?  

它具有以下特性:

经过softmax后,每一路得输出,都在0-1之间

所有路输出之和为1

经过softmax后,较大的输入在输出时会变得相对更大

基于以上三个特性,softmax经常用在分类深度神经网络的输出头,做多分类输出


5.CNN的平移不变性是什么?如何实现的? 

平移不变性指的是CNN对于同一张图机器及其平移后的版本都有输出同样的结果。CNN的平移不变性是通过卷积+池化实现的。

卷积:图片经过平移,相应的特征图上的表达也是平移的,在神经网络中,卷积被定义为不同位置的特征检测器,也就意味着,无论目标出现在图像中的哪个位置,他都会检测到同样的这些特征,输出同样的响应。

池化:池化包括最大池化和平均池化,最大池化返回感受野中的最大值,如果最大值被移动了,但是仍然在这个感受野中,那么池化层仍然会输出相同的最大值,这两种操作共同提供了一些平移不变性,即使图像被平移,卷积保证仍然能检测到它的特征,池化尽可能的保持一致的表达。

但近几年的研究中发现,但深度网络加深后,CNN的平移不变性越来越难以保证,比如当图像中的物体发生小范围移动的话,网络预测结果会出现较大的波动,其中一个原因是下采样,果果多层下采样会导致保持平移前结果不变的概率越来越小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值