YOLO v2之总结篇（linux+windows）

最新推荐文章于 2025-09-21 18:48:24 发布

原创最新推荐文章于 2025-09-21 18:48:24 发布 · 5.9w 阅读

119 ·

CC 4.0 BY-SA版权

物体检测专栏收录该内容

30 篇文章

订阅专栏

从下图可以看出，YOLOv2不管是速度还是精度都超过了SSD300，和YOLOv1相比，确实有很大的性能的提升。这名字也起的darknet，就跟黑魔法一样，是那么的奏效，不得不佩服老外的起名啊。

论文思想篇：

该论文为YOLO9000:Better, Faster, Stronger
非常值得一看的论文。

Better：

batch Normalization:在卷基层后面增加了batch Normalization，去掉了dropout层，mAP提升2%。

High ResolutionClassifier:x训练网络的时候将网络从224*224变为448*448，当然后续为了保证特征图中只有基数个定位位置，从而保证只有一个中心细胞，网络最终设置为416*416。最终实现了4%的mAP提升。

Convoutional with AnchorBoxes:作者吸收了faster RCNN中RPN的思想，去掉了yolov1中的全连接层，加入了anchor boxes，这样做的目的就是得到更高的召回率，当然召回率高了，mAP就会相应的下降，这也是人之常情。最终，yolov1只有98个边界框，yolov2达到了1000多个。mAP由69.5下降到69.2，下降了0.3，召回率由81%提升到88%，提升7%。

Dimension Clusters:这里作者提出了kmeans聚类，这里的K作者取值为5，这样会在模型复杂度和召回率之间达到一个好的折中。并且使用聚类的中心代替Anchor，最后使用欧式距离进行边界框优先权的衡量，欧式距离公式如下所示，距离越小说明优先权越高。在k为5 的条件下，Avg IOU从60.9提升到了61.0。在k为9的的条件下Avg IOU提升为67.2

Direction locationprediction:

引入了anchor boxes就会产生模型不稳定的问题，该问题产生于边界框位置的预测。简单的解释，如果训练的图片中的物体一张是在左面，下一张又在右面，就会产生这样的波动，显然的这个过程是不受控制的，毕竟图片中的物体位置他在哪里就在哪里。这里作者，变换了个思路，把最终预测的相对于anchor的边界框的相关系数变为预测相对于grid cell（yolo v1的机制）的相关系数，使得输出的系数在0-1直接波动，如此就解决了波动的问题。最终，使用维度聚类和直接预测边界框中心比使用anchor boxes提升了5%的mAP。（这里我可能解释的也不是很清晰，还是有点不太好表达，希望还是多看看论文，论文才是第一手的资料）。

首先,yolov2边框的表示方式通过框的中心坐标bx,by，和框的宽bw，高bh这4个变量来表示。实际预测的值为tx,ty,tw,th。

由tx,ty,tw,th得到bx,by,bw,bh的详细公式如上图，其中，

cx，cy为框的中心坐标所在的grid cell 距离左上角第一个grid cell的cell个数。

tx,ty为预测的边框的中心点坐标。

σ()函数为logistic函数，将坐标归一化到0-1之间。最终得到的bx,by为归一化后的相对于grid cell的值

tw,th为预测的边框的宽，高。

pw,ph为anchor的宽，高。实际在使用中，作者为了将bw,bh也归一化到0-1，实际程序中的 pw,ph为anchor的宽，高和featuremap的宽，高的比值。最终得到的bw,bh为归一化后相对于anchor的值

σ(t0)表示预测的边框的置信度，为预测的边框的概率和预测的边框与ground truth的IOU值的乘积。

Fine-Grained Features:有别于faster rcnn和SSD采用多尺度的特征图进行预测，yolov2提出了一个全新的思路，作者引入了passthrough layer，这个层的作用就是将上一层特征图的相邻像素都切除一部分组成了另外一个通道。例如，将26*26*512的特征图变为13*13*2048的特征图（这里具体的实现过程需要看作者的源码，但是，为了解释这个变化过程，可以做这样的解释，就是将一个26*26的图的像素放到4个13*13的图中，水平每2个像素取1个，垂直也是每2个像素取一个，一共就可以得到2*2=4个，512*4=2048），使得特征图的数目提高了4倍，同时，相比于26*26的特征图，13*13的特征图更有利用小目标物的检测，

该改进使得mAP提升1%。

Multi-Scale Training:这里作者提出的训练方法也很独特，在训练过程中就每隔10batches，随机的选择另外一种尺度进行训练，这里，作者给出的训练尺度为{320,352，……，608}，这个训练的方法，使得最终得到的模型可以对不同分辨率的图像都能达到好的检测效果。

Faster：

这里，vgg16虽然精度足够好，但是模型比较大，网络传输起来比较费时间，因此，作者提出了一个自己的模型，Darknet-19。而darknetv2也正式已Darknet-19作为pretrained model训练起来的。

Stronger:

这里作者的想法也很新颖，解决了2个不同数据集相互排斥(mutualy exclusive)的问题。作者提出了WordTree，使用该树形结构成功的解决了不同数据集中的排斥问题。使用该树形结构进行分层的预测分类，在某个阈值处结束或者最终达到叶子节点处结束。下面这副图将有助于WordTree这个概念的理解。

linux篇：

安装步骤：

git clone https://github.com/pjreddie/darknet
cd darknet
vim Makefile
修改，GPU=1  OPENCV=1
wget http://pjreddie.com/media/files/yolo.weights
make
./darknet detect cfg/yolo.cfg yolo.weights data/horses.jpg

运行效果:

测试环境centos+titanx

程序下载链接：

https://github.com/pjreddie/darknet

http://pjreddie.com/darknet/yolo/

windows篇：

windows下的修改，主要就是将一些变量的定义放在每个函数的最前面即可。整个修改过程不是很难，参考darknetv1的修改，完全可以改出darknetv2 的windows的版本。

这里就不在赘述修改细节，有疑问欢迎留言。

最后贴一个cpu和gpu下运行的时间和效果图

进入到darknetv2根目录，运行下面的命令，

darknet.exe detect ./cfg/yolo.cfg yolo.weights ./data/horses.jpg

结果如下，运行环境，win7+至强E3cpu+750ti大将，左面为GPU版本，右面为CPU版本，

使用cudnn编译后，运行时间，左面为yolo模型，右面为tiny-yolo模型（cudnn版本为v5.1）

和darknetv1相比，很大的区别就是v1原来的模型750M，2G显存的显卡根本跑不起来，现在v2的模型变小，就可以跑起来了，从速度上来看，还是有点慢，和SSD的速度相比，直接差了1半，这里想说一下，为什么论文中写的速度比ssd快，而测试下不是呢？因为上面的测试都是没有使用cudnn，如果使用的这个，速度会快很多。

windows版本的链接大家可以参考，https://github.com/AlexeyAB/darknet

训练篇：

这里假定我要实现一个简单的人脸检测。

（1）首先就是数据集的准备，这里建议使用python+QT开发的抠图小工具，labelImg。

（2）模仿VOC的格式建立相应的文件夹，执行，

tree -d

目录结构显示如下，

其中，my2017为我自己的数据集起的名字，你也可以起别的名字，Annotations存放XML文件，Main中存放，train.txt，val.txt，test.txt，txt中只写图片的名字，一行一个。JPEGImages中存放图片。labels中存放由XML生成的txt文件。

（3）修改scripts下面的voc_label.py，将数据集的目录修改为自己的目录，然后执行

python voc_label.py

就会生成labels文件夹，以及文件夹下面的txt标记。

（4）修改，cfg/voc.data

class为训练的类别数

train为训练集train.txt

valid为验证集val.txt

names为voc.names，里面为自己训练的目标名称

backup为weights的存储位置

classes= 1

train = /dataSet /2017_train_all.txt

valid = /dataSet /2017_val.txt

names = /opt/darknetv2/data/voc.names

backup = /home/darknet_result_tiny_all/

（5）修改cfg/tiny-yolo.cfg

最后一个卷基层，filters和最后一个region的classes，

其中，filters=num×（classes + coords + 1）=5*(1+4+1)=30，这里我只有1个类别。

（6）执行下面的语句进行训练，

./darknet detector train ./cfg/voc.data ./cfg/tiny-yolo.cfg  ./darknet19_448.conv.23

训练完毕就可以生成weights文件，

（7）测试，执行下面语句，

./darknetdetect  ./cfg/tiny-yolo.cfg  /home/darknet_result_tiny_all/tiny-yolo_final.weights  ./data/jiaoshi.jpg

运行结果如下，

40 条评论

爱冒险的梦(Lqh) 2019.08.21
博主您好！我最近在搞YOLOv2，可以传给给我一份windows版本的吗，GPU和CPU都想要，谢谢！还有您的数据集也可以发我一份吗？我自己跑跑试试效果，邮箱：1350221066@qq.com，不胜感激~

weixin_43423400 2019.05.17
博主，您好！我最近也在搞YOLOv2，可以传给给我一份windows版本的吗，GPU和CPU都想要，谢谢！还有您的数据集可以发我一份吗，我自己跑跑试试效果，邮箱：949957655@qq.com，不胜感激~

ONLEY_999 2019.04.04
博主你好！我在训练完检测的时候图片的标签总是原来的，但是都是按照配置文件改了，查了好几遍总是原来的标签，不是自己改过来的，请问您知道什么原因嘛，有什么办法解决嘛

zeta73 2018.12.18
请问windows版怎么调成gpu运行，我运行train好像没用gpu，显示要4天多

Clay_Zhang 2018.10.06
博主呀 windows下怎么执行这句训练的代码呀 ./darknet detector train ./cfg/voc.data ./cfg/tiny-yolo.cfg ./darknet19_448.conv.23
- SunnyFish-ty回复watersink 2018.10.12
  [reply]qq_14845119[/reply] darknet.exe detector train data/thirdTry.data thirdTry.cfg thirdTry_2600.weights cmd下做类似如下执行
- watersink回复Clay_Zhang 2018.10.08
  [reply]Clay_Zhang[/reply] cmd下直接输入既可以

mr_zhaorui 2018.07.12
博主，我是在window环境下按照yolo自带标注工具打标的，在window下能够运行，然后传到了Linux系统服务器上放到对应文件夹下，按照上述指令进行训练，但是总是出现不能打开train.txt的错误（已经写成了绝对路径还是不行），这是什么原因啊
- Clay_Zhang回复mr_zhaorui 2018.10.06
  [reply]mr_zhaorui[/reply] 您好我想请问你一下 windows下怎么执行这句训练的代码呀 ./darknet detector train ./cfg/voc.data ./cfg/tiny-yolo.cfg ./darknet19_448.conv.23

SunnyFish-ty 2018.07.05
博主您好，我想请教您一个问题：我在训练的时候后，不管训练多久，训练输出总是有很多图片一个目标都没找到输出为： Region 94 Avg IOU:-nan(ind) Class -nan(ind), Obj:-nan(ind), No Obj:0.000001,.5R: -nan(ind), .75R:0.000000,count 0 你知道是什么原因么？谢谢~
- Clay_Zhang回复SunnyFish-ty 2018.10.06
  [reply]qq_33485434[/reply] 你好我想问一下 windows下怎么执行这句训练的代码呀 ./darknet detector train ./cfg/voc.data ./cfg/tiny-yolo.cfg ./darknet19_448.conv.23
- xh56781回复SunnyFish-ty 2018.07.20
  [reply]qq_33485434[/reply] 我也发生了跟你一样的情况、我是生成label标签的问题，检查一下分类全都是0。

new-boy 2018.06.26
博主您好，windows系统下我每次都显示couldn't open /home/pjreddie/data/voc/train.txt，请问voc.data下面训练数据的路径应该怎么写啊？拜托楼主回答我的问题！求你啦！
- watersink回复new-boy 2018.06.27
  [reply]qq_36228714[/reply] /home/pjreddie/data/voc/train.txt这个路径是linux下的路径，你需要改成你的windows下的路径，如果不是很确定，可以写成绝对路径

放下扳手&拿起键盘 2018.05.11
博主，你好！我想咨询一下你。YOLO v1中在损失函数中涉及到置信度和各类的概率。我想问的是，这两个信息需要在制作训练集的时候进行标定吗？还是在训练过程中给定的？谢谢博主

wojiaonicai10 2018.05.08
楼主你好，我看到你在Convoutional with AnchorBoxes部分中写到，“召回率提高了，准确率就会下降，这是人之常情”，我没太看出这两个比例之间有什么必要关联，可以麻烦楼主解释一下吗？
- watersink回复wojiaonicai10 2018.05.10
  [reply]wojiaonicai10[/reply] 是这样的，我这里是要表达Precision-recall曲线的意思，在p-r曲线中，随着召回率的提高，准确性会下降。