深度学习
玉玉大王
这个作者很懒,什么都没留下…
展开
-
网络不能训练,训练集loss不下降,准确率一直是盲猜的结果
3.检查学习率调整策略的函数位置是否放置正确,学习率调整策略的函数要放置在epoch这个for循环下,而不是放置在train那个for循环里,否则学习率会每隔几个batch就衰减一次,很快就接近0,不能训练。4.这是我复现别人网络不能训练的原因:没有batchnorm。古早网络都没有加batchnorm,还有一些非cv领域(比如通信),他们设计的神经网络都比较简单,没有batchnorm。1.学习率设置不当,调整学习率大小,并且检查是否有学习率改变策略。2.控制梯度爆炸防止梯度消失。原创 2023-05-16 22:04:25 · 220 阅读 · 1 评论 -
vscode用tensorboard报错 We failed to start a TensorBoard session due to the following error: Command fa
We failed to start a TensorBoard session due to the following error: Command failed: conda activate pytorch && echo 'e8b39361-0157-4923-80e1-22d70d46dee6' && python /home/zhangyulan/.vscode-server/extensions/ms-python.python-2022.14.0/pythonFiles/printEnvV原创 2022-10-11 09:52:30 · 4052 阅读 · 4 评论 -
module must have its parameters and buffers on device cuda:1 (device_ids[0]) but found one of them o
一机多卡训练时报错:RuntimeError: module must have its parameters and buffers on device cuda:0 (device_ids[0]) but found one of them on device: cuda:1原创 2022-09-29 09:25:17 · 1187 阅读 · 0 评论