darknet详解（yolo图像检测）

fastji

已于 2022-06-19 11:55:59 修改

阅读量1w

点赞数 18

文章标签：神经网络机器学习深度学习人工智能算法

于 2020-11-16 08:13:59 首次发布

本文链接：https://blog.csdn.net/m0_52571715/article/details/109713440

版权

yolo 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

darknet

1 篇文章 0 订阅

订阅专栏

图片识别

1 篇文章 0 订阅

订阅专栏

darknet详解（yolo图像检测）

个人记录整理，如有转载请注明来源，
本文中包含的一张图片来源于网络，如有不妥请与我联系。

文章目录

darknet详解（yolo图像检测）

参考文档

简介

速度快，基于YOLO（目前已发展到了yolov3）。
轻量级，由C编写，无任何依赖，便于安装。

安装

从github中clone源码

git clone https://github.com/pjreddie/darknet.git

编译源码

如需使用CUDA进行GPU计算，修改Makefile文件，设置GPU为1。

使用openCV同理

GPU=1
CUDNN=0
OPENCV=0
OPENMP=0
DEBUG=0

使用make编译

make

清除编译

make clean

使用

使用预先训练模型测试

下载预训练权重

wget https://pjreddie.com/media/files/yolov3.weights

国外服务器下载速度太慢，使用个人保存http://owncloud.hujinwen.com/s/HpvcQSXKjN2UBVo

运行命令检测

./darknet detect cfg/yolov3.cfg yolov3.weights data/dog.jpg

将会看到以下输出

layer     filters    size              input                output
    0 conv     32  3 x 3 / 1   416 x 416 x   3   ->   416 x 416 x  32  0.299 BFLOPs
    1 conv     64  3 x 3 / 2   416 x 416 x  32   ->   208 x 208 x  64  1.595 BFLOPs
    .......
  105 conv    255  1 x 1 / 1    52 x  52 x 256   ->    52 x  52 x 255  0.353 BFLOPs
  106 detection
truth_thresh: Using default '1.000000'
Loading weights from yolov3.weights...Done!
data/dog.jpg: Predicted in 0.029329 seconds.
dog: 99%
truck: 93%
bicycle: 99%

该detect命令是该命令更通用版本的简介，他等效于命令：

# 如需指定.data文件，请使用该命令
./darknet detector test cfg/coco.data cfg/yolov3.cfg yolov3.weights data/dog.jpg

多张图片

# 直接使用命令，不指定图片
./darknet detect cfg/yolov3.cfg yolov3.weights

训练自己的模型

标记图片，推荐使用labelImg

使用yolo风格，内容大体如下

0 0.250925925926 0.576388888889 0.1 0.0263888888889
0 0.485185185185 0.578125 0.0685185185185 0.0201388888889

标记结果与原图放到一个文件夹下，文件名相同，后缀不同

生成训练图片的路径文件（可直接用如下命令）

# image_path 为训练图片文件夹路径
find <image_path> -name \*.jpg > trainlist.txt

准备.cfg文件

.cfg文件参数详解，见下文[yolov3.cfg 参数详解](#yolov3.cfg 参数详解)

copy一份cfg文件夹下的yolov3.cfg文件，做以下修改：

首先，将最上方的

# Testing
batch=1
subdivisions=1
# Training
# batch=64
# subdivisions=16

修改为

# Testing
#batch=1
#subdivisions=1
# Training
batch=64
subdivisions=16

其中batch表示batchsize，而subdivisions是为了解决想要大batchsize而显存又不够的情况，每次代码只读取batchsize/subdivisions 个图像，如图中设置为64/16=4，但是会将16次的结果也就是64张图的结果，作为一个batch来统一处理（调用的时候再将testing部分解除注释，并将train部分注释）

然后，根据自己检测的类别，将每个[yolo]（共有三个[yolo]）下方的classes修改为自己需要检测的类别，如果只检测一类则classes=1
然后将每个[yolo] 上方的第一个filters的值进行修改，计算方式为（5+classes）*3,如果classes为1，则为18，修改前后的对比：

[convolutional]
size=1
stride=1
pad=1
filters=255
activation=linear


[yolo]
mask = 0,1,2
anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326
classes=80
num=9
jitter=.3
ignore_thresh = .5
truth_thresh = 1
random=1

[convolutional]
size=1
stride=1
pad=1
filters=18
activation=linear


[yolo]
mask = 0,1,2
anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326
classes=1
num=9
jitter=.3
ignore_thresh = .5
truth_thresh = 1
random=1

准备.data文件

内容文件如下

classes= 20  # 共有多少类物体
train  = /home/pjreddie/data/voc/train.txt  # 训练图片路径文件
valid  = /home/pjreddie/data/voc/2007_test.txt  # 验证图片路径文件（非必须）
names = data/voc.names  # classes name文件
backup = /home/pjreddie/backup/  # 训练结果保存路径

使用预训练的卷积权重

可选，经测试可以有效的提高训练结果的准确率，但可能会导致某些训练结果无法检测，例如文字验证码（个人保存）。

wget https://pjreddie.com/media/files/darknet53.conv.74

开始训练

./darknet detector train apps/slide_train/voc.data apps/slide_train/yolov3.cfg

如有预训练模型，可追加在命令结尾

./darknet detector train apps/slide_train/voc.data apps/slide_train/yolov3.cfg data/yolov3.weight

你会看到如下输出

2671: 0.778086, 0.880656 avg, 0.001000 rate, 3.107481 seconds, 170944 images
Loaded: 0.000040 seconds
Region 82 Avg IOU: -nan, Class: -nan, Obj: -nan, No Obj: 0.000126, .5R: -nan, .75R: -nan,  count: 0
Region 94 Avg IOU: 0.817099, Class: 0.966982, Obj: 0.113345, No Obj: 0.001282, .5R: 1.000000, .75R: 0.875000,  count: 8
Region 106 Avg IOU: -nan, Class: -nan, Obj: -nan, No Obj: 0.000000, .5R: -nan, .75R: -nan,  count: 0
Region 82 Avg IOU: -nan, Class: -nan, Obj: -nan, No Obj: 0.000191, .5R: -nan, .75R: -nan,  count: 0
...

其中2671代表迭代次数。0.880656 avg代表预测误差率，越低越好。在该值长时间未变化的时候，应该停止训练。（参考：yolov3应该什么时候停止训练？）

开始预测

./darknet detect cfg/yolov3.cfg yolov3.weights data/dog.jpg

如需指定.data文件请使用

./darknet detector test cfg/coco.data cfg/yolov3.cfg yolov3.weights data/dog.jpg

多张图片则在执行命令的时候不指定图片。

以已经训练好权重为基础，继续训练

./darknet detector train apps/slide_train/voc.data apps/slide_train/yolov3.cfg data/yolov3_900.weight

个人测试中使用无误，但看到博客中说该方法会报错，特在此记录为参考：（参考文档：yolov3如何在之前训练的基础上继续训练）

要多运行下面这句话，做一个微调，将yolov3_last.weights变为yolov3_last.conv.23

./darknet partial cfg/darknet19_448.cfg yolov3_last.weights yolov3_last.conv.23 23

在Python中整合

参考文档
- darknet 的python接口使用

在目录python下有darknet.py文件

直接运行会报错

修改libdarknet.so路径

# lib = CDLL("/home/pjreddie/documents/darknet/libdarknet.so", RTLD_GLOBAL)
lib = CDLL("../libdarknet.so", RTLD_GLOBAL)
lib.network_width.argtypes = [c_void_p]
lib.network_width.restype = c_int
lib.network_height.argtypes = [c_void_p]
lib.network_height.restype = c_int

predict = lib.network_predict
predict.argtypes = [c_void_p, POINTER(c_float)]
predict.restype = POINTER(c_float)

参数传递不可直接用字符串

libdarknet.so这个库是用c/c++来写的，所以出现了这个错误。解决方法是在出错的字符串前面添加一个b就行了。

if __name__ == "__main__":
    # net = load_net("cfg/densenet201.cfg", "/home/pjreddie/trained/densenet201.weights", 0)
    # im = load_image("data/wolf.jpg", 0, 0)
    # meta = load_meta("cfg/imagenet1k.data")
    # r = classify(net, meta, im)
    # print r[:10]
    net = load_net(b"../apps/slide_train/yolov3.cfg", b"../apps/slide_train/backup/yolov3.backup", 0)
    meta = load_meta(b"../apps/slide_train/voc.data")
    r = detect(net, meta, b"../apps/slide_train/validate/1.png")
    r = detect(net, meta, b"../apps/slide_train/validate/1.png")
    print(r)

详解

yolov3.cfg 参数详解

参考文档
- YOLOV3实战4：Darknet中cfg文件说明和理解
- darknet-YOLOv3 cfg参数定义

★ [xxx]开始的行表示网络的一层，其后的内容为该层的参数配置，[net]为特殊的层，配置整个网络
[net]                        
# Testing
# batch=1
# subdivisions=1
# Training
★ 这儿batch与机器学习中的batch有少许差别，仅表示网络积累多少个样本后进行一次BP , 这个参数表示将一个batch的图片分sub次完成网络的前向传播。
★★ 敲黑板：在Darknet中，batch和sub是结合使用的，例如这儿的batch=64，sub=16表示训练的过程中将一次性加载64张图片进内存，然后分16次完成前向传播，意思是每次4张，前向传播的循环过程中累加loss求平均，待64张图片都完成前向传播后，再一次性后传更新参数。
★★★ 调参经验：sub一般设置16，不能太大或太小，且为8的倍数，其实也没啥硬性规定，看着舒服就好。batch的值可以根据显存占用情况动态调整，一次性加减sub大小即可，通常情况下batch越大越好，还需注意一点，在测试的时候batch和sub都设置为1，避免发生神秘错误！
batch=64                     
subdivisions=16              
★ 网络输入的宽width
width=608                    
★ 网络输入的高height
height=608                   
★ 网络输入的通道数channels
channels=3                   
★★★ width和height一定要为32的倍数，否则不能加载网络
★ 提示：width也可以设置为不等于height，通常情况下，width和height的值越大，对于小目标的识别效果越好，但受到了显存的限制，读者可以自行尝试不同组合
★ 动量 DeepLearning1中最优化方法中的动量参数，这个值影响着梯度下降到最优值得速度
momentum=0.9                 
★ 权重衰减正则项，防止过拟合
decay=0.0005                 
★ 数据增强参数，通过旋转角度来生成更多训练样本
angle=0                      
★ 数据增强参数，通过调整饱和度来生成更多训练样本
saturation = 1.5             
★ 数据增强参数，通过调整曝光量来生成更多训练样本
exposure = 1.5               
★ 数据增强参数，通过调整色调来生成更多训练样本
hue=.1                       

★ 学习率决定着权值更新的速度，设置得太大会使结果超过最优值，太小会使下降速度过慢。如果仅靠人为干预调整参数，需要不断修改学习率。刚开始训练时可以将学习率设置的高一点，而一定轮数之后，将其减小在训练过程中，一般根据训练轮数设置动态变化的学习率。
刚开始训练时：学习率以 0.01 ~ 0.001 为宜。一定轮数过后：逐渐减缓。
接近训练结束：学习速率的衰减应该在100倍以上。
学习率的调整参考https://blog.csdn.net/qq_33485434/article/details/80452941
★★★ 学习率调整一定不要太死，实际训练过程中根据loss的变化和其他指标动态调整，手动ctrl+c结束此次训练后，修改学习率，再加载刚才保存的模型继续训练即可完成手动调参，调整的依据是根据训练日志来，如果loss波动太大，说明学习率过大，适当减小，变为1/5，1/10均可，如果loss几乎不变，可能网络已经收敛或者陷入了局部极小，此时可以适当增大学习率，注意每次调整学习率后一定要训练久一点，充分观察，调参是个细活，慢慢琢磨。
★★ 一点小说明：实际学习率与GPU的个数有关，例如你的学习率设置为0.001，如果你有4块GPU，那真实学习率为0.001/4
learning_rate=0.001          
★ 在迭代次数小于burn_in时，其学习率的更新有一种方式，大于burn_in时，才采用policy的更新方式
burn_in=1000                 
★ 训练次数达到max_batches后停止学习，一次为跑完一个batch
max_batches = 500200         
★ 学习率调整的策略：constant, steps, exp, poly, step, sig, RANDOM，constant等方式参考https://nanfei.ink/2018/01/23/YOLOv2%E8%B0%83%E5%8F%82%E6%80%BB%E7%BB%93/#more
policy=steps                 
★ steps和scale是设置学习率的变化，比如迭代到400000次时，学习率衰减十倍，45000次迭代时，学习率又会在前一个学习率的基础上衰减十倍
steps=400000,450000          
scales=.1,.1                 
                             
                             
★ 一层卷积层的配置说明
[convolutional]              
★ 是否进行BN处理，什么是BN此处不赘述，1为是，0为不是 
batch_normalize=1            
★ 卷积核个数，也是输出通道数
filters=32                   
★ 卷积核尺寸
size=3                       
★ 卷积步长
stride=1                     
★ 卷积时是否进行0 padding,padding的个数与卷积核尺寸有关，为size/2向下取整，如3/2=1
pad=1                        
★ 网络层激活函数
activation=leaky             
★★ 卷积核尺寸3*3配合padding且步长为1时，不改变feature map的大小
                             
                             
# Downsample
★ 下采样层的配置说明
[convolutional]              
batch_normalize=1
filters=64
size=3
stride=2
pad=1
★★ 卷积核尺寸为3*3，配合padding且步长为2时，feature map变为原来的一半大小
activation=leaky             


★ shotcut层配置说明
[shortcut]                   
★ 与前面的多少次进行融合，-3表示前面第三层
from=-3                      
★ 层次激活函数
activation=linear            
    ......
    ......
★ YOLO层前面一层卷积层配置说明
[convolutional]              
size=1
stride=1
pad=1
★ filters=num(预测框个数)*(classes+5)，5的意义是4个坐标加一个置信率，论文中的tx,ty,tw,th,c，classes为类别数，COCO为80,num表示YOLO中每个cell预测的框的个数，YOLOV3中为3
★★★ 自己使用时，此处的值一定要根据自己的数据集进行更改，例如你识别4个类，则：filters=3*(4+5)=27,三个fileters都需要修改，切记
filters=255                          
activation=linear

★ YOLO层配置说明
[yolo]                       
★  使用anchor的索引，0，1，2表示使用下面定义的anchors中的前三个anchor
mask = 0,1,2                 
anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326   
★ 类别数目
classes=80                   
★ 每个grid cell总共预测几个box,和anchors的数量一致。当想要使用更多anchors时需要调大num
num=9                        
★ 数据增强手段，此处jitter为随机调整宽高比的范围，该参数不好理解，在我的源代码注释中有详细说明
jitter=.3                    
ignore_thresh = .7
★ 参与计算的IOU阈值大小.当预测的检测框与ground true的IOU大于ignore_thresh的时候，参与loss的计算，否则，检测框的不参与损失计算。
★ 理解：目的是控制参与loss计算的检测框的规模，当ignore_thresh过于大，接近于1的时候，那么参与检测框回归loss的个数就会比较少，同时也容易造成过拟合；而如果ignore_thresh设置的过于小，那么参与计算的会数量规模就会很大。同时也容易在进行检测框回归的时候造成欠拟合。
★ 参数设置：一般选取0.5-0.7之间的一个值，之前的计算基础都是小尺度（13*13）用的是0.7，（26*26）用的是0.5。这次先将0.5更改为0.7。参考：https://www.e-learn.cn/content/qita/804953
truth_thresh = 1             
★ 为1打开随机多尺度训练，为0则关闭
★★ 提示：当打开随机多尺度训练时，前面设置的网络输入尺寸width和height其实就不起作用了，width会在320到608之间随机取值，且width=height，没10轮随机改变一次，一般建议可以根据自己需要修改随机尺度训练的范围，这样可以增大batch，望读者自行尝试！
random=1

issues

fastji

关注

18
点赞
踩
128

收藏

觉得还不错? 一键收藏
0
评论
darknet详解（yolo图像检测）

darknet详解（yolo图像检测）个人记录整理，如有转载请注明来源 https://blog.csdn.net/weixin_37731771/article/details/103666068，本文中包含的一张图片来源于网络，如有不妥请与我联系。文章目录darknet详解（yolo图像检测）简介安装使用使用预先训练模型测试训练自己的模型在Python中整合详解yolov3.cfg 参数详解issues参考文档darknet官方文档Darknet概述Yolo darknet训练自己
复制链接

扫一扫