使用 colab &pytorch 训练深度学习模型问题记录（二）： stack expects each tensor to be equal size, but got [64] at entry

最新推荐文章于 2024-09-28 16:59:52 发布

萌甘薯

最新推荐文章于 2024-09-28 16:59:52 发布

阅读量2.1k

点赞数

分类专栏： Python NLP 文章标签： pytorch

本文链接：https://blog.csdn.net/Hyacintheatre/article/details/113879549

版权

Python 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

NLP

2 篇文章 0 订阅

订阅专栏

出现这个Runtime error 很有可能是因为一个 batch 内每条数据长度不一致，检查是否需要 pad 或者 truncate 是否有问题。
我在使用 transformers 的 Berttokenizer 处理句子对是遇到这个问题，不同的数据有不同的特点，根据具体情况调整 truncate 策略。

encoded_pair = self.tokenizer(sent1, sent2, 
                                      padding='max_length',  # Pad to max_length
                                      truncation=TRUE,  # Truncate to max_length TRUE
                                      max_length=self.maxlen,  
                                      return_tensors='pt')  # Return torch.Tensor objects

把truncation方式改为’longest_first’，问题解决。

encoded_pair = self.tokenizer(sent1, sent2, 
                                      padding='max_length',  # Pad to max_length
                                      truncation='longest_first', 
                                      max_length=self.maxlen,  
                                      return_tensors='pt')  # Return torch.Tensor objects