dying relu 和weight decay

weight decay就是在原有loss后面,再加一个关于权重的正则化,类似与L2 正则,让权重变得稀疏;

参考:https://www.zhihu.com/question/24529483

dying relu是当梯度值过大时,权重更新后为负数,经relu后变为0,导致后面也不再更新。

三种办法:leak-relu、降低学习率、用 momentum based 优化算法,动态调整学习率

参考:https://www.zhihu.com/question/67151971

 

在训练模型时,有时候需要对新加入的数据进行finetune,但可能finetune不动了,这就有可能是kernel为0了(weight decay和 dying relu造成的)。

解决的办法是,训练的时候固定scale。

参考:https://zhuanlan.zhihu.com/p/61587832

 

另参考

为什么bn后不加bias:

https://blog.csdn.net/u010698086/article/details/78046671

https://blog.csdn.net/hjxu2016/article/details/81813535

https://blog.csdn.net/elysion122/article/details/79628587

                                   

 

转载于:https://www.cnblogs.com/573177885qq/p/11106870.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值