1、使用深度学习训练网络时出现了大量的nan数据,各种调试无果后,最后将learning rate 从0.1缩小了十倍变为0.01,重新训练,之后输出正常。
2、之后又出现了不管input是什么,输出output都相同的问题,猜测是因为正则化权重过大,导致层内参数weight过小,再经过relu层后全变成零。
尝试降低正则化权重,将weight_decay=0.09变为·weight_decay=0.009
1、使用深度学习训练网络时出现了大量的nan数据,各种调试无果后,最后将learning rate 从0.1缩小了十倍变为0.01,重新训练,之后输出正常。
2、之后又出现了不管input是什么,输出output都相同的问题,猜测是因为正则化权重过大,导致层内参数weight过小,再经过relu层后全变成零。
尝试降低正则化权重,将weight_decay=0.09变为·weight_decay=0.009