碰到了out of memory的情况,可能有两方面原因:
1、别人在用GPU;
2、model太大,跑不起来。
如果是第一个原因,可以告知别人在跑程序时指定GPU,因为不指定的话默认占用所有的GPU。
如果是第二个原因,可以换一个小一点的model。比如,fast rcnn中有vgg16,caffenet,vgg_cnn_m_1024,如果vgg16遇到out of memory的情况,可以换成vgg_cnn_m_1024,用如下命令:
其中为了避免影响他人,用--gpu 1是指定使用的gpu id。
nvidia-smi查看GPU。
在训练fast rcnn时遇到找不到文件的问题
最后发现imageset和devkit路径写在factory.py里面,修改里面的imageset和devkit的路径就可以了。