[调参] 初始化不正确

最新推荐文章于 2020-04-21 12:59:42 发布

lgy_keira

最新推荐文章于 2020-04-21 12:59:42 发布

阅读量247

点赞数

分类专栏：调参技巧

调参技巧专栏收录该内容

5 篇文章 0 订阅

订阅专栏

输出keras每层激励的方差

如果参数初始化不正确，那整个训练过程会越来越慢，甚至直接停掉。不过我们可以很容易发现这个问题。表现最明显的数据是每一层的激励和梯度的方差(波动状况)。举个例子说，如果初始化不正确，很有可能从前到后逐层的激励(激励函数的输入部分)方差变化是如下的状况：
我们用标准差为0.01均值为0的高斯分布值来初始化权重(这不合理)

Layer 0: Variance: 1.005315e+00
Layer 1: Variance: 3.123429e-04
Layer 2: Variance: 1.159213e-06
Layer 3: Variance: 5.467721e-10
Layer 4: Variance: 2.757210e-13
Layer 5: Variance: 3.316570e-16
Layer 6: Variance: 3.123025e-19
Layer 7: Variance: 6.199031e-22
Layer 8: Variance: 6.623673e-25

大家看一眼上述的数值，就会发现，从前往后，激励值波动逐层降得非常厉害，这也就意味着反向算法中，计算回传梯度的时候，梯度都要接近0了，因此参数的迭代更新几乎就要衰减没了，显然不太靠谱。我们按照上一讲中提到的方式正确初始化权重，再逐层看激励/梯度值的方差，会发现它们的方差衰减没那么厉害，近似在一个级别：
重新正确设定权重:

Layer 0: Variance: 1.002860e+00
Layer 1: Variance: 7.015103e-01
Layer 2: Variance: 6.048625e-01
Layer 3: Variance: 8.517882e-01
Layer 4: Variance: 6.362898e-01
Layer 5: Variance: 4.329555e-01
Layer 6: Variance: 3.539950e-01
Layer 7: Variance: 3.809120e-01
Layer 8: Variance: 2.497737e-01

lgy_keira

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[调参] 初始化不正确

输出keras每层激励的方差如果参数初始化不正确，那整个训练过程会越来越慢，甚至直接停掉。不过我们可以很容易发现这个问题。表现最明显的数据是每一层的激励和梯度的方差(波动状况)。举个例子说，如果初始化不正确，很有可能从前到后逐层的激励(激励函数的输入部分)方差变化是如下的状况：我们用标准差为0.01均值为0的高斯分布值来初始化权重(这不合理)Layer 0: Variance: 1...
复制链接

扫一扫

专栏目录