mmdetection 项目过程问题总结

最新推荐文章于 2024-06-04 23:07:47 发布

minixiguazi

最新推荐文章于 2024-06-04 23:07:47 发布

阅读量1k

点赞数 1

分类专栏： mmdetection 研究生

本文链接：https://blog.csdn.net/minixiguazi/article/details/103046472

版权

19 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1、写两分支的时候无论batchsize多小，程序都会卡到动不了

问题在于，写两分支的时候loss更新没写好，loss每个分支都对同一个key值更新一遍，多次更新导致CPU和GPU信息传递的时候负担太重。（CPU计算完梯度传递给GPU）

解决方法：把两个分支得到的loss 的tensor先加起来再更新loss字典。

2、在mask rcnn的基础上复现panet的时候出现

RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation.

意思是在反向求梯度的时候，发现有个变量被人为替换了。

通过观察错误信息中变量的维度信息，确定错误发生在mask分支。

接下来，通过控制变量法逐渐锁定错误位置。

下面是出错部分的代码：

for i in range(len(x)):
    x[i] = self.mask_conv1[i](x[i]) # 错误出在这一句
x = torch.max(x, dim=0)[0]
…………

在原来的代码中，我把x矩阵里面的每一行都进行了改变，而网络在梯度求导时发现变量x内部发生了替换，会导致逻辑上出问题。

改正后代码如下：

x_ = x.clone()
for i in range(len(x)):
    x_[i] = self.mask_conv1[i](x[i]) # 错误出在这一句
x_ = torch.max(x_, dim=0)[0]
…………

避开替换操作就好啦，完美解决问题。

关注