【目标检测】用自己的数据集训练Faster RCNN的详细全过程（步骤很详细很直观，小白可入）

最新推荐文章于 2025-03-31 22:03:40 发布

精致又勤奋的码农

最新推荐文章于 2025-03-31 22:03:40 发布

阅读量2.3w

点赞数 42

分类专栏：目标检测

本文链接：https://blog.csdn.net/qq_38391210/article/details/104607895

版权

本文详述使用Faster RCNN在Windows 10环境下，用Python3.6训练目标检测模型的过程，包括配置、数据集制作、训练、测试和计算mAP的步骤，适合初学者。涉及内容包括安装依赖、修改配置文件、添加预训练模型、制作PASCAL VOC格式数据集、运行训练和测试脚本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、写在前面

最近和小伙伴一起参加了服务外包比赛，选择的题目是对于图像中的安全帽的检测。对YOLOv3，Faster RCNN这些常见的目标检测算法都进行了实验。本文就介绍Faster RNN的整个实验过程。

二、电脑相关配置

win10，python3.6

三、训练过程

实验选用的源码是较为常用的Faster RCNN源码。对于该源码的使用网上也有很多的博客文章，但是正是因为文章很多，所以也容易造成一些误导，所以也踩过一些坑。以下是我测试过的可以正确训练的步骤：

1 安装支持包

首先要安装源码运行需要的支持包。下载的Faster RCNN源码中有一个requirement.txt文件，其中记录了需要安装的包的名字。可以在cmd中输入pip install -r requirements.txt安装需要的所有依赖包。也可以自己手动一个个安装，需要的python依赖包有，cython，opencv-python，easydict，Pillow，matplotlib，scipy。

2 修改config.py文件

在lib/config下的config.py文件，是专门的配置文件，其中定义了模型的诸多参数，大家可以根据自己的需要修改相关参数，下面介绍较为重要的需要修改的参数。
（1）network参数
定义预训练使用的模型，我见到的最多的是使用vgg16模型（源码默认也是使用vgg16），也可以使用resnet模型。我采用的是vgg16模型。
（2） learning_rate参数
这个就是我们熟知的学习率，学习率定义的太小收敛速度会很慢，学习率定义的太大可能会导致不收敛。这个参数可以多次调整，分别训练，取一个最优的学习率。
（3） batch_size参数
这个也是很熟知的一个参数，定义的是每一个梯度的大小。一般用的比较多的是32，64，128，256这些batch_size。batch_size太大，内存容量可能撑不住，但是下降方向更准确，震荡更小，而且训练相同量的数据集速度更快；batch_size太小，内存利用率就变小了，但是容易陷入局部最优。个人理解是，如果内存够大，硬件允许的话，batch_size设置的大一些会更容易收敛，效果也会更好。
（4）max_iters参数
这个参数定义的是最大的迭代次数。
（5） snap_iterations参数
这个参数定义的是迭代多少次保存一次模型。个人觉得snap_iterations和max_iters要比较匹配，修改的话需要一起修改。因为如果max_iters参数定义的较小，但是snap_iterations很大的话，就看不到自己生成的模型了。模型保存的路径是default/voc_2007_trainval/default。每次保存模型都是保存4个文件。
（6） roi_bg_threshold_low
这个参数定义的是background（背景）认定的ROI的最小阈值。这里我没有深入研究，但是在运行train.py文件进行训练的时候如果产生Exception：image invalid，skipping。此时修改此处的值为0.0，会解决问题。

3 添加预训练模型

由于我们训练的时候是基于一个预训练模型进行训练的，所以需要下载vgg16模型，并且保存在data/imagenet_weights中。下载的模型命名一般是vgg_16.ckpt，但是我们要修改为vgg16.ckpt。原因是要和源码中调用部分代码一致，源码中调用的名称就是vgg16.ckpt。如果此处不修改，在源码中全部采用vgg_16.ckpt应该也是可以的，但是何必要这么麻烦呢。附上vgg16的百度网盘链接，提取码为45ef。

最低0.47元/天解锁文章