RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the

P13643822101

已于 2022-08-13 12:02:40 修改

阅读量1.1w

点赞数 14

文章标签： python 深度学习人工智能

于 2022-08-13 12:02:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/P13643822101/article/details/126317322

版权

问题描述：

mobilenetv3在残差块中加入了注意力机制用GPU 进行训练时报的错

解决方法1：

1，不用GPU 用CPU 就可以 CUDA 设置为False,确实可以解决，但是不用GPU 好像意义不大

解决方法2 ：

用仍然用GPU ,看下面的的解决方案：

报错的原因：2

1，我直接在倒残差块的前向传播内对导入的注意力模块进行了实例化然后直接调用

错误范例

2，错误分析：参照这个链接得到启发原文链接：https://blog.csdn.net/qq_42902997/article/details/122594017

这个时候就会报错，而报错的原因，就是因为 torch 的流程是这样的：
首先将所有的模型加载，先从主干网络开始，进入主干网络的 init 中把所有的内容加载，然后，通过 main 函数中的 to(cuda) 操作，就把加载的所有内容和网络定义都放到 cuda 上了，但是注意！！
第二步开始训练，训练的过程中，都是通过 forward 函数来调用的，但是这个时候程序发现，当进入主干的 forward 中运行的时候，出现了几个注意力模块的网络层，但是注意：这些注意力模块中定义的网络层，在网络加载的过程中可是没有出现在主干网络的 __init__里面，也就理所当然地没有加载到 cuda上，因此在主干网络的 forward 中出现的时候，注意力模块的这几个网络层的 weight 依然在 cpu 上，这就导致了错误。

正确的解决方法

1，首先在_inti_里对导入的模块进行实例化，对于混合注意力机制可能不同阶段需要传入不同的通道参数和卷积核大小参数，这个时候应该用下图的方式分别对每类参数进行实例化定义，这个时候注意力模块就会和整个主干一起初始化，然后再一起传入到cuda上。就不会出现网络模型或者数据一部分在GPU一部分在CPU上了。

2，初始化定义好之后，就可以在forward里面调用了，调用范例

这样就不会报错了

关注

14
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the

RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。