![](https://img-blog.csdnimg.cn/20190918140053667.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
deep-learning
文章平均质量分 60
深度学习
qq184861643
这个作者很懒,什么都没留下…
展开
-
Deep Learning 1 : Batch Normalization,Weight Normalization and Layer Normalization
BN与WN区别 WN与BN都属于参数重写(Reparameterization)的方法,但采用的方式不同。WN相比BN主要有三点优势: 1.WN通过重写深度学习网络的权重W的方式来加速收敛,没有引入对minibatch的以来,可以用于RNN网络。而BN因为依赖于minibatch,不能用于RNN,原因是:1.RNN处理的Sequence是不断变长的;2.RNN是基于time step计算的,若直转载 2017-09-15 16:40:14 · 1839 阅读 · 0 评论 -
论文阅读:Neural Image Caption Generation with Visual Attention
作者在同一个framework下提出两种基于attention的image caption generators:一种是可以通过标准的BP进行训练的soft attention,另一种是通过最大化变分下界或增强学习来训练的hard attention原创 2017-10-18 11:37:42 · 1586 阅读 · 0 评论 -
BN层总结与实际作用
提出BN层的目的 深度学习的一个重要假设是独立同分布假设(IID),这个假设不仅适用于训练集和测试集,也适用于同一网络的不同层之间,即假设每一层的输入在经过与权重相乘和非线性激活后,输出(即下一层的输入)与输入依然IID,这样在反向传播时各层的梯度都会在一个合理的区间内。 但是在实际训练时,随着每一层W的不断变化,每层的输出的分布也在不断变化,不能保证与输入的IID关系。BN层实际上就是对每层的输...原创 2018-10-30 11:28:35 · 5016 阅读 · 0 评论 -
ResNet解决了什么问题?
现在一般的说法是说resnet帮助解决了梯度消失和梯度爆炸的问题,使得更深的网络的训练变得可行。从梯度反传的链式法则角度来考虑,shortcut确实使得反传的累乘项中多出了一项常数1。设L层的神经网络,XnX_nXn是第n层的输入。则对于一般的神经网络,Xn+1=F(Xn)X_{n+1}=F(X_n)Xn+1=F(Xn),梯度反传如下图所示: ...原创 2019-04-21 19:52:47 · 1378 阅读 · 0 评论