1.源代码中使用的是单向LSTM
将bidirectional=True后(改为双向),程序报错。
原因:
改为双向后需要也把数据维度改变下
将嵌入层的维度✖️2
2. 使用apple的mps训练会出现loss为nan,而用cpu 训练则会都正常
猜测:既然cp可以正常运行,那么学习率,batch_size等估计没有问题。可能是苹果的gpu对pytorch的支持还不够好,导致了bug
如果有大神知道是什么原因则可以指教下。
1.源代码中使用的是单向LSTM
将bidirectional=True后(改为双向),程序报错。
原因:
改为双向后需要也把数据维度改变下
将嵌入层的维度✖️2
2. 使用apple的mps训练会出现loss为nan,而用cpu 训练则会都正常
猜测:既然cp可以正常运行,那么学习率,batch_size等估计没有问题。可能是苹果的gpu对pytorch的支持还不够好,导致了bug
如果有大神知道是什么原因则可以指教下。