Deep Learning 最新进展

只是列举了一部分。

(1) parametric rectifier linear unit(PreLu)

这是对neuron的activation function 做的改进。 众所周知, ReLU是一个作为激活函数的一个比较好的选择。 如下图:


而这里说的PreLU是允许出现一个负的activation(以前想过, 当时当时马上有被自己给推翻了, 毕竟权重可以是负的, 当时觉得这样没有意义, 还是自己尽信书了)。 这个负的activation有一个可以通过学习调整的参数a。 引入这样一个参数的好处是对于非常deep的model, 由于模型层数很深, 或导致对于初始的几个层(initial layers)缺少回传过来的梯度的信息。 PReLU激活函数通过运行出现negative activation而使得可以有更多的梯度(gradient)从上面传下来。

(2)一种新的初始化网可以权重的办法(MSRA for caffer users)

由于神经网络不是一个凸函数, 这意味着该函数有很多的local minima, 所以能否将网络的weight初始化到一个好的值异常重要。  可以说Hinton对网络进行pretrain(可以是RBM, 或者也可以是autoencoder)就是为网络的权重空间中找到一个好的初始化位置。 权重初始化做的好, 在进行梯度下降的时候, 很容易找到比较不错的参数。 Xavier initialization是有Bengio 大神的team提出来的。 此初始化办法考虑到每个神经元的fan-in和fan-out从而去初始化相应的权重。 

然而该新的初始化研究成果声称Xavier及其他的alternation 只是考虑了linear activation funciton的特点。 所以新的初始化办法针对ReLU激活函数做了一些相关的改变, 最终证明课这个新的初始化办法可以获得更好的收敛率。


(3)批归一化(batch Normalization)

这一成果的目的是对数据归一化。 研究人员发现训练数据的分布(ditribution)发生变化的时候, 模型就会做出变化。  而且训练数据的分布要比初始化办法(initialization)和学习办法(learning schedule)对于最终得到的模型的影响更加重要。 每一个minibatch的数据在送入网络进行训练之前都需要进行归一化, 这样才有更快的学习率(learning rate), 从而有更快的收敛率,  我们得到的模型对于不同的参数初始化办法(initialization scheme)更加的robust。  每一的minibatch的样本通过用minibatch的mean和variance进行归一化, 然后在通过一个学习到的系数和残差(residulal)对没一个样本进行scale和shift, 具体如下:


(4)Inceptoion layers

吓到了, Inception的中文意思是开始, 开端, 有一部电影叫做Inception, 翻译为盗梦空间。 意思是发生在意识内部的。 

其实这是2014年ImageNet winner, 即googleNet网络的主要组成部分。  trick就是在网络的一层全部使用multi-scale filters, 然后将这些多尺度的滤波器的输出响应串联起来作为下一层的输入, 从而我们可以通过使用不同的sizes和structures学习到每一层的difference covariances。

  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值