关于DETR模型训练自定义数据集AP=0问题

最新推荐文章于 2024-03-14 00:31:19 发布

彭祥.

最新推荐文章于 2024-03-14 00:31:19 发布

阅读量1.9k

点赞数 1

分类专栏：深度学习 DETR系列文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/pengxiang1998/article/details/129263702

版权

深度学习同时被 2 个专栏收录

51 篇文章 9 订阅

订阅专栏

DETR系列

43 篇文章 31 订阅

订阅专栏

在使用DETR模型进行训练过程时，其在每次训练完成后都会进行评估，但在运行过程中，博主发现其AP值始终都为0，如下图：

在这里插入图片描述

刚开始时，博主还以为是初始训练的问题，后来进行了6个轮次后结果依旧没有改变，此时以为是数据集的类别与编号没有对应造成的，但经过排查却并非是这个原因。后来在查阅资料时得知这是由于Transformer开始是无方向的，我们需要给它一个预训练权重进行迁移学习。这时博主就很奇怪了，先前不是已经给了ResNet预训练权重了吗，怎么还会要求这个呢，查看了一下服务器的源码也没有发现异常，而在查看GPU使用情况时（如下图），博主此时的batch-size=32，但GPU利用率与显存占用率并不高，这与论文中提到的很吃配置明显是不符的。

在这里插入图片描述

随后博主不再使用服务器，而是转回本地，此时发现运行竟然报错了。

RuntimeError: Error(s) in loading state_dict for DataParallel:
size mismatch for module.lstm_block.lstm.weight_ih_l0: copying a param with shape torch.Size([7, 500]) from checkpoint, the shape in current model is torch.Size([92, 2000]).

这一下给我搞懵了，先前可没有出现过呀。后来经过梳理先前的过程，发现是自己的类别配置出了问题。

在这里插入图片描述

修改后再次运行，不再报错，也可以运行了，但缺依旧没有解决AP=0的问题。很苦恼。

彭祥.

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
15
评论
关于DETR模型训练自定义数据集AP=0问题

刚开始时，博主还以为是初始训练的问题，后来进行了6个轮次后结果依旧没有改变，此时以为是数据集的类别与编号没有对应造成的，但经过排查却并非是这个原因。这时博主就很奇怪了，先前不是已经给了ResNet预训练权重了吗，怎么还会要求这个呢，查看了一下服务器的源码也没有发现异常，而在查看GPU使用情况时（如下图），博主此时的batch-size=32，但GPU利用率与显存占用率并不高，这与论文中提到的很吃配置明显是不符的。修改后再次运行，不再报错，也可以运行了，但缺依旧没有解决AP=0的问题。
复制链接

扫一扫