深度学习基础技术分析3:深度学习

如果我们初始化神经网络的权值为 [ 0 , 1 ] [0,1] [0,1]之间的随机值,由反向传播算法的数学推导可知,梯度从后向前传播时,每传递一层梯度值都会减小为原来的0.25倍,如果神经网络隐层特别多,那么梯度在穿过多层后将变得非常小接近于0,即出现梯度消失现象;当网络权值初始化为 ( 1 , + ∞ ) (1, +\infty) (1,+)区间内的值,则会出现梯度爆炸情况。
详细数学分析见文章:http://neuralnetworksanddeeplearning.com/chap5.html 中文译文:深度神经网络为何很难训练https://www.jianshu.com/p/917f71b06499.
深度学习通过解决这个核心问题,获得了长足进步。

技术3.1 激活函数

如图3.1所示,Relu函数简单粗暴:
f ( x ) = max ⁡ { 0 , x } f(x) = \max\{0, x\} f(x)=max{0,x}
在这里插入图片描述图3.1 Relu函数及其导数
由于它并未像技术2.2所涉及的sigmoid和tanh那样,把数据映射到很小的区间,所以避免了梯度消失。
Leaky ReLU函数(PReLU)进行了一点改进
f ( x ) = max ⁡ ( α x , x ) f(x) = \max(\alpha x, x) f(x)=max(αx,x)
其中, α \alpha α是一个很小的值,如 0.01 0.01 0.01.
有了这些激活函数,我们就可以做很深的网络,表达更复杂的模型了。

技术3.2 跳线

在全连接网络中,我们仅支持相邻层的网络节点相连。跳线则直接越过了多层,建立了直接的连接。

技术3.3 Dropout

当训练样本不多时,网络很容易发生过拟合。Dropout通过随机移除一些连接解决该问题,在一定程度上达到正则化的效果。
参见:https://blog.csdn.net/program_developer/article/details/80737724

技术3.4 同一层连线

如果处理的数据是序列,则需要在同一层节点(特别是相邻节点)之间进行连线。RNN(recurrent neural network,循环神经网络)的作用就在于此。
在这里插入图片描述图3.2 RNN

技术3.5 更复杂的节点

LSTM在RNN基础上,使用了更复杂的节点结构。
在这里插入图片描述图3.3 LSTM

小结

深度学习的技术可以从如下几个方面来分析:

  1. 输入
  2. 输出
  3. 网络结构
  4. 节点设计
    相应分析放在下一个贴子。
    本贴需要大幅修改。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值