![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
nathan_deep
Keep Learning, Keep Fighting
展开
-
激活函数总结RELU,Leaky RELU
ReLU修正线性单元(Rectified linear unit,ReLU)是神经网络中最常用的激活函数。ReLu激活函数的优点是:1,相比Sigmoid/tanh函数,使用梯度下降(GD)法时,收敛速度更快2,相比Sigmoid/tanh函数,Relu只需要一个门限值,即可以得到激活值,计算速度更快缺点是:Relu的输入值为负的时候,输出始终为0,其一阶导数也始终为0,这样...原创 2020-04-29 11:26:33 · 7073 阅读 · 1 评论 -
Batch Normalization原理总结
Batch Normalization 是Google于2015年提出的一种归一化方法。BN带来以下优点:加速训练过程; 可以使用较大的学习率; 允许在深层网络中使用sigmoid这种易导致梯度消失的激活函数; 具有轻微地正则化效果,以此可以降低dropout的使用。ICS(Internal Covariate Shift)我们知道在网络训练过程中,随着上一层参数的改变,下一层...原创 2020-04-29 11:05:25 · 483 阅读 · 0 评论 -
深度学习优化器总结
Adam优化器计算t时间步的梯度:首先,计算梯度的指数移动平均数, 初始化为0。系数为指数衰减率,控制权重分配(动量与当前梯度),通常取接近于1的值。默认为0.9其次,计算梯度平方的指数移动平均数,初始化为0。 系数为指数衰减率,控制之前的梯度平方的影响情况。默认为0.999第三,由于初始化为0,会导致偏向于0,尤其在训练初期阶...原创 2020-01-21 13:54:19 · 319 阅读 · 0 评论 -
Pytorch 用法总结
创建Tensor修改Tensor形状a = torch.randn(3,4)print(a.size()) # torch.Size([3, 4])print(torch.numel(a)) # 12b=a.reshape(1,12)print(b) # tensor([[ 0.1468, 1.4984, 0.9745, 1.0549, 0.81...原创 2019-12-20 11:17:58 · 306 阅读 · 0 评论 -
GELU 激活函数
gelu(Gaussian error linear units,高斯误差线性单元)论文链接:https://arxiv.org/abs/1606.08415数学表达如下:相比Relu:Relu将小于0的数据映射到0,将大于0的给与 等于 映射操作,虽然性能比sigmoid好,但是缺乏数据的统计特性,而Gelu则在relu的基础上加入了统计的特性。python实现...原创 2019-12-16 10:19:55 · 593 阅读 · 0 评论 -
深度学习的weight initialization
TLDR (or the take-away)Weight Initialization matters!!! 深度学习中的weight initialization对模型收敛速度和模型质量有重要影响!在ReLU activation function中推荐使用Xavier Initialization的变种,暂且称之为He Initialization:使用Batch Normalization...转载 2018-04-26 13:20:00 · 453 阅读 · 0 评论