Deep Learning 最新进展

最新推荐文章于 2023-02-09 17:39:59 发布

JUAN425

最新推荐文章于 2023-02-09 17:39:59 发布

阅读量1k

点赞数

分类专栏： DeepLearning

DeepLearning 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

只是列举了一部分。

（1） parametric rectifier linear unit(PreLu)

这是对neuron的activation function 做的改进。众所周知， ReLU是一个作为激活函数的一个比较好的选择。如下图：

而这里说的PreLU是允许出现一个负的activation（以前想过，当时当时马上有被自己给推翻了，毕竟权重可以是负的，当时觉得这样没有意义，还是自己尽信书了）。这个负的activation有一个可以通过学习调整的参数a。引入这样一个参数的好处是对于非常deep的model，由于模型层数很深，或导致对于初始的几个层（initial layers）缺少回传过来的梯度的信息。 PReLU激活函数通过运行出现negative activation而使得可以有更多的梯度(gradient)从上面传下来。

（2）一种新的初始化网可以权重的办法（MSRA for caffer users）

由于神经网络不是一个凸函数，这意味着该函数有很多的local minima，所以能否将网络的weight初始化到一个好的值异常重要。可以说Hinton对网络进行pretrain(可以是RBM, 或者也可以是autoencoder)就是为网络的权重空间中找到一个好的初始化位置。权重初始化做的好，在进行梯度下降的时候，很容易找到比较不错的参数。 Xavier initialization是有Bengio 大神的team提出来的。此初始化办法考虑到每个神经元的fan-in和fan-out从而去初始化相应的权重。

然而该新的初始化研究成果声称Xavier及其他的alternation 只是考虑了linear activation funciton的特点。所以新的初始化办法针对ReLU激活函数做了一些相关的改变，最终证明课这个新的初始化办法可以获得更好的收敛率。

（3）批归一化（batch Normalization）

这一成果的目的是对数据归一化。研究人员发现训练数据的分布(ditribution)发生变化的时候，模型就会做出变化。而且训练数据的分布要比初始化办法（initialization）和学习办法（learning schedule）对于最终得到的模型的影响更加重要。每一个minibatch的数据在送入网络进行训练之前都需要进行归一化，这样才有更快的学习率（learning rate）, 从而有更快的收敛率，我们得到的模型对于不同的参数初始化办法（initialization scheme）更加的robust。每一的minibatch的样本通过用minibatch的mean和variance进行归一化，然后在通过一个学习到的系数和残差（residulal）对没一个样本进行scale和shift，具体如下：

（4）Inceptoion layers

吓到了， Inception的中文意思是开始，开端，有一部电影叫做Inception, 翻译为盗梦空间。意思是发生在意识内部的。

其实这是2014年ImageNet winner，即googleNet网络的主要组成部分。 trick就是在网络的一层全部使用multi-scale filters，然后将这些多尺度的滤波器的输出响应串联起来作为下一层的输入，从而我们可以通过使用不同的sizes和structures学习到每一层的difference covariances。

JUAN425

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Deep Learning 最新进展

只是列举了一部分。（1） parametric rectifier linear unit(PreLu)这是对neuron的activation function 做的改进。众所周知， ReLU是一个作为激活函数的一个比较好的选择。如下图：而这里说的PreLU是允许出现一个负的activation（以前想过，当时当时马上有被自己给推翻了，毕竟权重可以是负的，当时觉得这
复制链接

扫一扫

专栏目录