问题原因 1.learning rate过大,导致学不到东西 2.batch size过小 3.激活函数使用relu导致负值全部归零 4. optimizer没有放进模型参数 5.torch.argmax(),会使结果失去梯度。对于分类任务,将ground truth改成one-hot形式,网络输出概率来比较 6.softmax也会使结果失去梯度,用log_softmax代替(煞笔pytorch,毁我青春)