Pytorch 在训练NLP相关模型中的一些BUG

最新推荐文章于 2022-08-08 15:08:36 发布

Jie Ou

最新推荐文章于 2022-08-08 15:08:36 发布

阅读量2.3k

点赞数 2

分类专栏：机器学习深度学习文章标签： pytorch 自然语言处理

本文链接：https://blog.csdn.net/github_36923418/article/details/106525452

版权

深度学习同时被 2 个专栏收录

48 篇文章 1 订阅

订阅专栏

机器学习

45 篇文章 1 订阅

订阅专栏

1、RuntimeError: Expected `len(lengths)` to be equal to batch_size, but got 9 (batch_size=18)

这个问题，有很多人讨论。主要是涉及到使用

nn.DataParallel 利用多GPU训练RNN模型会碰到这个问题，
主要是因为输入RNN的之前数据为 b,c,h;
但是输入的时候会利用permute(1, 0)变成c,b,h;
这个时候DataParallel会把数据变成c//2,b,h;
此时问题就出现了，torch.nn.utils.rnn.pack_padded_sequence(embedded, input_lengths)这个函数中embeded的size和input_lengths的size大小不一样了，input_lengths=b//2;
因此需要吧permute(1, 0)这个操作换到RNN模块也就是Net函数里面去就好了。

2、UserWarning: RNN module weights are not part of single contiguous chunk of memory. This means they need to be compacted at every call, possibly greatly increasing memory usage. To compact weights again call flatten_parameters().

这个问题，的原因我还没有搞清楚，但是解决办法如下：

找到你网络的class

在def forward（self）：这个函数中中，找到 output,_=self.rnn/gru/lstm(...)，在这个前面加上一句“self.rnn.flatten_parameters()”

Jie Ou

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
Pytorch 在训练NLP相关模型中的一些BUG

1、RuntimeError: Expected `len(lengths)` to be equal to batch_size, but got 9 (batch_size=18)这个问题，有很多人讨论。主要是涉及到使用nn.DataParallel 利用多GPU训练RNN模型会碰到这个问题，主要是因为输入RNN的之前数据为 b,c,h;但是输入的时候会利用permute(1, 0)变成c,b,h;这个时候DataParallel会把数据变成c//2,b,h;此时问题就出现了，tor.
复制链接

扫一扫