1、使用github上的pytorch实现:https://github.com/jwyang/faster-rcnn.pytorch
按照作者说明,配置好。注意,安装在服务器上的cuda版本要和编译这个工程使用的cuda版本一致,与pytorch调用的cuda版本一致,否则会报错:undefined symbol: __cudaPopCallConfiguration
2、制作自己的数据:
首先应该清楚mscoco的数据格式:
(1)文件夹的组织方式:
coco
images
train2014
一张张具体的图像
test2014
一张张具体的图像
annotations
instances_train2014.json
instances_test2014.json
(2)将自己的数据组织成如下格式。
3、关于我的数据:
我的数据中,具体图像是以 “单词_日期_序号.png”命名的。但是,mscoco中具体的图片是以“序号.png”命名的。所以,需要修改代码中pycocotools\coco.py中的getImgIds函数、createIndex函数,改成符合我的数据的索引以及文件名称。
其次,修改factory.py中的内容,因为我的数据只有训练集和测试集,没有源代码中提到的'val', 'minival', 'valminusminival', 'trainval'。同样,也要修改trainval_net.py中的参数解析/dataset部分。
关于源代码的组成,参考博客https://www.cnblogs.com/louyihang-loves-baiyan/p/4903231.html。