所有前向传播时用到的requires_grad=True的变量必须在同一设备上,所有的变量必须以变量的形式存在,之前我遇到一种情况是我把lstm的输出结果的data取出来参与后面的运算,结果lstm中涉及的所有变量的梯度都是0(None)
为什么pytorch训练模型时会出现梯度为0的情况
最新推荐文章于 2024-08-27 22:08:15 发布
所有前向传播时用到的requires_grad=True的变量必须在同一设备上,所有的变量必须以变量的形式存在,之前我遇到一种情况是我把lstm的输出结果的data取出来参与后面的运算,结果lstm中涉及的所有变量的梯度都是0(None)