loss = nan
把学习率调小,甚至调到0,观察loss,loss此时不应该为nan了,因为整个网络都不更新了
可能和网络初始化有关,贾洋清说初始化不好,lr=0.0001都可能很大了。。。
也有人说手动试多种初始化参数,把bias调0.1
再给个github的链接
https://github.com/BVLC/caffe/issues/409#issuecomment-42977319
loss = nan
把学习率调小,甚至调到0,观察loss,loss此时不应该为nan了,因为整个网络都不更新了
可能和网络初始化有关,贾洋清说初始化不好,lr=0.0001都可能很大了。。。
也有人说手动试多种初始化参数,把bias调0.1
再给个github的链接
https://github.com/BVLC/caffe/issues/409#issuecomment-42977319