Meta R-CNN : Towards General Solver for Instance-level Few-shot Learning 自定义数据集训练踩坑
在复现该算法时,由于是使用自定义的数据集和训练规则,遇到了很多踩坑的东西。在此列出我的实验笔记和自定义训练中遇到的问题和解决方法,给自己做记录也给同样复现的同学们参考。
测试中出现AP值是nan
3 ,1 ,.,.) =
1.00000e-03 *
-0.2829 -0.2829 -0.2829 … -0.2829 -0.2829 -0.2829
-0.2829 -0.2829 -0.2829 … -0.2829 -0.2829 -0.2829
-0.2829 -0.2829 -0.2829 … -0.2829 -0.2829 -0.2829
… ⋱ …
-0.2829 -0.2829 -0.2829 … -0.2829 -0.2829 -0.2829
-0.2829 -0.2829 -0.2829 … -0.2829 -0.2829 -0.2829
-0.2829 -0.2829 -0.2829 … -0.2829 -0.2829 -0.2829
(3 ,2 ,.,.) =
1.00000e-03 *
nan nan nan … nan nan nan
nan nan nan … nan nan nan
nan nan nan … nan nan nan
… ⋱ …
nan nan nan … nan nan nan
nan nan nan … nan nan nan
nan nan nan … nan nan nan
…
(3 ,33,.,.) =
发现nan的出现可能是xml标注格式是以左上为原点,而正常VOC2012数据集是以左下为原点,导致在读取bbox的时候,-1会导致出现log(0)的情况
同时,代码中flip box的操作会导致大型的box超出边界,也会导致错误
所以必要的时候可以调整翻转边界框的表达式,避免我们自定义的特殊尺寸的图片标注出现问题。
实验代码中的shot 问题
验代码疑似在phase 2训练的时候把shot乘上了3 ,关注github作者回复以后会发现这实际上并不是一个作弊举动,实验证明shot 改回1 对结果不影响。作者自称是在保证base class在新测试中的遗忘较小
自定义数据集问题
Traceback (most recent call last):
File “/usr/local/lib/python3.5/dist-packages/torch/nn/modules/module.py”, line 514, in load_state_dict
own_state[name].copy_(param)
RuntimeError: invalid argument 2: sizes do not match at /pytorch/torch/lib/THC/THCTensorCopy.cu:31
在使用网络数据集做测试的时候,发现我们如果引入自采集的png格式图片,png会有alpha channel,导致tensor的维度是4 而不是3,会导致后期出现无法broadcast的情况,png图像处理不能只改动后缀名,需要逐个转化。
加载自采集的数据集是,发现class类别出现不对应问题,可能为出现的错误部分负责。