dropout神经网络_神经网络Dropout层中为什么dropout后还需要进行rescale?

点击上方“MLNLP”,选择加"星标"或“置顶”

重磅干货,第一时间送达bf8a3977bf2bca1fd7ae6645f98b13d7.png

编辑:忆臻

https://www.zhihu.com/question/61751133

本文仅作为学术分享,如果侵权,会删文处理

神经网络Dropout层中为什么dropout后还需要进行rescale?

作者:PENGhttps://www.zhihu.com/question/61751133/answer/190722593

这被称为inverted dropout。当模型使用了dropout layer,训练的时候只有占比为 82c2ce89-6a48-eb11-8da9-e4434bdf6706.svg 的隐藏层单元参与训练,那么在预测的时候,如果所有的隐藏层单元都需要参与进来,则得到的结果相比训练时平均要大 83c2ce89-6a48-eb11-8da9-e4434bdf6706.svg ,为了避免这种情况,就需要测试的时候将输出结果乘以 82c2ce89-6a48-eb11-8da9-e4434bdf6706.svg 使下一层的输入规模保持不变。

而利用inverted dropout,我们可以在训练的时候直接将dropout后留下的权重扩大 83c2ce89-6a48-eb11-8da9-e4434bdf6706.svg 倍,这样就可以使结果的scale保持不变,而在预测的时候也不用做额外的操作了,更方便一些。

作者:春辉https://www.zhihu.com/question/61751133/answer/243909675

最高票的答案已经非常好了,为了冒泡再解释一下。

假设我们设置dropout probability为p, 那么该层大约有比例为p的单元会被drop掉,因为每个神经元是否drop就是一次伯努利实验,这层的dropout概率服从伯努利分布,而分布的期望就是np。

88c2ce89-6a48-eb11-8da9-e4434bdf6706.svg ,当 8bc2ce89-6a48-eb11-8da9-e4434bdf6706.svg 层有比例为p的单元drop后, 8dc2ce89-6a48-eb11-8da9-e4434bdf6706.svg 大约会变为原来的p倍,为了保证 8ec2ce89-6a48-eb11-8da9-e4434bdf6706.svg 层的z期望不变,所以要在 8dc2ce89-6a48-eb11-8da9-e4434bdf6706.svg 与dropout矩阵乘积后,要除以p。

作者:李翔https://www.zhihu.com/question/61751133/answer/796032375

补充一些额外的点:dropout做rescale主要保证了神经元的期望均值与无dropout时一致,但未保证期望方差(标准差)一致。方差会产生一个与dropout系数p相关的偏移。所以dropout与bn联合使用可能会产生一定问题。详情参考understanding the disharmony of dropout and bn~

e4b7ece36220b438331de809aa0c1e46.png

推荐阅读:

手把手教你PaddlePaddle 做词向量模型 SkipGram实战

如何评价Word2Vec作者提出的fastText算法?深度学习是否在文本分类等简单任务上没有优势?

从Word2Vec到Bert,聊聊词向量的前世今生(一)

ed3137792c6151de3d2d06731e8f6837.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值