YOLOV3中Darknet中cfg文件说明和理解

darknet 是由 C 和 CUDA 开发的,不需要配置其他深度学习的框架(如,tensorflow、caffe 等),支持 CPU 和 GPU 运算,而且安装过程非常简单。

1cfg文件说明理解

[net]                        ★ [xxx]开始的行表示网络的一层,其后的内容为该层的参数配置,[net]为特殊的层,配置整个网络

# Testing                    ★ #号开头的行为注释行,在解析cfg的文件时会忽略该行
# batch=1
# subdivisions=1             ★测评模型时batch、subdivisions必须为1

# Training
batch=64                     ★ 这儿batch与机器学习中的batch有少许差别,仅表示网络积累多少个样本后进行一次BP 

subdivisions=16              ★ 这个参数表示将一个batch的图片分sub次完成网络的前向传播

                             ★★ 敲黑板:在Darknet中,batch和sub是结合使用的,例如这儿的batch=64,sub=16表示训练的过程中将一次性加载64张图片进内存,然后分16次完成前向传播,意思是每次4张,前向传播的循环过程中累加loss求平均,待64张图片都完成前向传播后,再一次性后传更新参数,subdivisions越大,可以减轻显卡压力

                              ★★★ 调参经验:sub一般设置16,不能太大或太小,且为8的倍数,其实也没啥硬性规定,看着舒服就好。batch的值可以根据显存占用情况动态调整,一次性加减sub大小即可,通常情况下batch越大越好,还需注意一点,在测试的时候batch和sub都设置为1,避免发生神秘错误!

width=608                     ★ 网络输入的宽width

height=608                    ★ 网络输入的高height

channels=3                    ★ 网络输入的通道数channels。若为灰度图,则chennels=1,另外还需修改/scr/data.c文件中的load_data_detection函数;若为RGB则 channels=3 ,无需修改/scr/data.c文件

data load_data_detection(int n, char **paths, int m, int w, int h, int boxes, int classes, float jitter, float hue, float saturation, float exposure)
{
    char **random_paths = get_random_paths(paths, n, m);
    int i;
    data d = {0};
    d.shallow = 0;

    d.X.rows = n;
    d.X.vals = calloc(d.X.rows, sizeof(float*));
    d.X.cols = h*w;                   //灰阶图
    //d.X.cols = h*w*3;               //RGB图

                              ★★敲黑板:width和height一定要为32的倍数,否则不能加载网络

                              ★ 提示:width也可以设置为不等于height,通常情况下,width和height的值越大,对于小目标的识别效果越好,但
受到了显存的限制,读者可以自行尝试不同组合

momentum=0.9                  ★ 动量DeepLearning中最优化方法中的动量参数,这个值影响着梯度下降到最优值得速度

decay=0.0005                  ★ 权重衰减正则项,防止过拟合

angle=0                       ★ 数据增强参数,通过旋转角度来生成更多训练样本

saturation = 1.5              ★ 数据增强参数,通过调整饱和度来生成更多训练样本

exposure = 1.5                ★ 数据增强参数,通过调整曝光量来生成更多训练样本

hue=.1                        ★ 数据增强参数,通过调整色调来生成更多训练样本

learning_rate=0.001           ★ 学习率决定着权值更新的速度,设置得太大会使结果超过最优值,太小会使下降速度过慢。如果仅靠人为干预调整参数,需要不断修改学习率。刚开始训练时可以将学习率设置的高一点,而一定轮数之后,将其减小在训练过程中,一般根据训练轮数设置动态变化的学习率。
刚开始训练时:学习率以 0.01 ~ 0.001 为宜。一定轮数过后:逐渐减缓。接近训练结束:学习速率的衰减应该在100倍以上。学习率的调整参考https://blog.csdn.net/qq_33485434/article/details/80452941

                               ★★★ 学习率调整一定不要太死,实际训练过程中根据loss的变化和其他指标动态调整,手动ctrl+c结束此次训练后,修改学习率,再加载刚才保存的模型继续训练即可完成手动调参,调整的依据是根据训练日志来,如果loss波动太大,说明学习率过大,适当减小,变为1/5,1/10均可,如果loss几乎不变,可能网络已经收敛或者陷入了局部极小,此时可以适当增大学习率,注意每次调整学习率后一定要训练久一点,充分观察,调参是个细活,慢慢琢磨

                               ★★ 一点小说明:实际学习率与GPU的个数有关,例如你的学习率设置为0.001,如果你有4块GPU,那真实学习
率为0.001*4(一种说法)
learning_rate=0.001
一块gpu跑的时候,打印出来的学习率0.001
2 块gpu跑的时候,打印出来的学习率0.002
4 块gpu跑的时候,打印出来的学习率0.004
所以应该是相乘的关系,而不是相除的关系(另一种说法)

burn_in=1000                    ★ 在迭代次数小于burn_in时,其学习率的更新有一种方式,大于burn_in时,才采用policy的更新方式

max_batches = 500200            ★ 训练次数达到max_batches后停止学习,一次为跑完一个batch

policy=steps                    ★ 学习率调整的策略:constant, steps, exp, poly, step, sig, RANDOM,constant等方式
                                  参考https://nanfei.ink/2018/01/23/YOLOv2%E8%B0%83%E5%8F%82%E6%80%BB%E7%BB%93/#more

steps=400000,450000          
scales=.1,.1                    ★ steps和scale是设置学习率的变化,比如迭代到400000次时,学习率衰减十倍,45000次迭代时,学习率又会在前一个学习率的基础上衰减十倍

[convolutional]                 ★ 一层卷积层的配置说明

batch_normalize=1               ★ 是否进行BN处理,什么是BN此处不赘述,1为是,0为不是 

filters=32                      ★ 卷积核个数,也是输出通道数

size=3                          ★ 卷积核尺寸

stride=1                        ★ 卷积步长

pad=1                           ★ 卷积时是否进行0 padding,padding的个数与卷积核尺寸有关,为size/2向下取整,如3/2=1

activation=leaky                ★ 网络层激活函数
                                ★★ 卷积核尺寸3*3配合padding且步长为1时,不改变feature map的大小

# Downsample

[convolutional]                 ★ 下采样层的配置说明

batch_normalize=1
filters=64
size=3
stride=2
pad=1
activation=leaky                 ★★ 卷积核尺寸为3*3,配合padding且步长为2时,feature map变为原来的一半大小

[shortcut]                       ★ shotcut层配置说明

from=-3                          ★ 与前面的多少层进行融合,-3表示前面第三层

activation=linear                ★ 层激活函数

[convolutional]                  ★ YOLO层前面一层卷积层配置说明

size=1
stride=1
pad=1
filters=255                      ★每一个[region/yolo]层前的最后一个卷积层中的 filters=(classes+1+coords)*anchors_num,其中anchors_num 是该层mask的一个值。如果没有mask则anchors_num=num是这层的anchor数。COCO为80,num表示YOLO中每个cell预测的框的个数,YOLOV3中为3,即为mask的个数。

                                 ★★★ 自己使用时,此处的值一定要根据自己的数据集进行更改,例如你识别4个类,则filters=3*(4+5)=27,三个fileters 
都需要修改,切记

activation=linear

[yolo]                             ★ YOLO层配置说明。yolov2中

mask = 0,1,2                       ★ 使用anchor的索引,0,1,2表示使用下面定义的anchors中的前三个anchor

anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326   

classes=80                         ★ 类别数目
 
num=9                              ★ 每个grid cell总共预测几个box,和anchors的数量一致。当想要使用更多anchors时需要调大num

jitter=.3                          ★ 数据增强手段,此处jitter为随机调整宽高比的范围,该参数不好理解。利用数据抖动产生更多数据,YOLOv2中使用的是crop,filp,以及net层的angle,flip是随机的,jitter就是crop的参数,tiny-yolo-voc.cfg中jitter=.3,就是在0~0.3中进行crop


ignore_thresh = .7                 ★ 参与计算的IOU阈值大小。当预测的检测框与ground true的IOU大于ignore_thresh的时候,参与loss的计算,否则,检测框的不参与损失计算。

                                ★ 理解:目的是控制参与loss计算的检测框的规模,当ignore_thresh过于大,接近于1的时候,那么参与检测框回归loss的个数就会比较少,同时也容易造成过拟合;而如果ignore_thresh设置的过于小,那么参与计算的会数量
规模就会很大。同时也容易在进行检测框回归的时候造成欠拟合。

                                 ★ 参数设置:一般选取0.5-0.7之间的一个值,之前的计算基础都是小尺度(13*13)用的是0.7,(26*26)用的是0.5。这次先将0.5更改为0.7。参考:https://www.e-learn.cn/content/qita/804953

truth_thresh = 1                  

random=1                         ★ 为1打开随机多尺度训练,为0则关闭。如果为1,每次迭代图片大小随机从320到608,步长为32;如果为0,每次训练大小与输入大小一致
                                 ★★ 提示:当打开随机多尺度训练时,前面设置的网络输入尺寸width和height其实就不起作用了,width会在320到608之间随机取值,且width=height,每10轮随机改变一次,一般建议可以根据自己需要修改随机尺度训练的范围,这样可以增大batch,望读者自行尝试!

 2、训练时打印的参数

 

1训练一次迭代的log

count是表示当前层与真实label正确配对的box数,其中所有参数都是针对这个值的平均值,除no obj外,不过从代码上来,这个参数意义并不大,所以当前yolo层如果出现nan这个的打印,也是正常的,只是表示当前batch刚好所有图片都是大框或是小框,所以提高batch的数目可以降低nan出现的机率,不过相应的是,batch提高,可能显存就暴了,我用的2070一次用默认的64张显存就不够,只能改成32张。其中avg iou表示当前层正确配对的box的交并比的平均值,class表示表示当前层正确配对类别的平均机率,obj表示confidence = P(object)* IOU,表示预测box包含对象与IOU好坏的评分,0.5R/0.7R:表示iou在0.5/0.7上与正确配对的box的比率。

1)批输出

https://i-blog.csdnimg.cn/blog_migrate/432d640dd6dee9994a9c8e6c693f540a.png

  • 上面的 .cfg 文件中 batch = 64 ,subdivision = 16,所以在训练输出中,训练迭代包含了16组,每组又包含了4张图片,跟设定的batch和subdivision的值一致。
  • 此处有16*3条信息,每组包含三条信息,分别是: 
    Region 82 Avg IOU: 
    Region 94 Avg IOU: 
    Region 106 Avg IOU: 

三个尺度上预测不同大小的框

82卷积层 为最大的预测尺度,使用较大的mask,但是可以预测出较小的物体

94卷积层 为中间的预测尺度,使用中等的mask,

106卷积层为最小的预测尺度,使用较小的mask,可以预测出较大的物体

  • https://i-blog.csdnimg.cn/blog_migrate/6ad3d4698fd8b75ccb86f999633483d7.png

针对最后一行中的信息。如下的输出是由 detector.c 生成的:

20001: 指示当前训练的迭代次数

0.048537: 是总体的Loss

0.048537 avg: 是平均Loss(这个数值应该越低越好,一般来说,一旦这个数值低于0.060730 avg就可以终止训练了)

0.002000 rate: 代表当前的学习率,在.cfg文件中定义了它的初始值和调整策略。

3.904890 seconds: 表示当前批次训练花费的总时间。

2560128 images:表示到目前为止,参与训练的图片的总量,是批次*batch的大小(因为我之前训练到20200次后中断过又从20000次开始的所以2560128=20001*64*2,我是这样理解的不知道对不对)

2)块输出

Region Avg IOU: 0.900319: 表示在当前subdivision内的图片的平均IOU,代表预测的矩形框和真实目标的交集与并集之比,这里是90.03%,很高了

Class: 0.999576: 标注物体分类的正确率,期望该值趋近于1。

Obj: 0.991654: 越接近1越好。

No Obj: 0.000033: 期望该值越来越小,但不为零。

.5R:1.000000: 以IOU=0.5为阈值时候的recall;recall = 检出的正样本/实际的正样本

.75R:1.000000:以IOU=0.75为阈值时候的recall 

count: 1:count后的值表示所有的当前subdivision图片(本例中一共4张)中包含正样本的图片的数量。在输出log中的其他行中,可以看到其他subdivision也有0、2、3、4,说明在subdivision中含有不含检测对象的图片。

3yolov3网络结构分析

首先查看打开yolov3.cfg,看下网络,可以用netron查看图形界面,可以发现网络主要以卷积层构成,shortcut(残差连接),route(通道组合)三种构成,首先用步长为2的卷积缩小图像一次,然后开始用shortcut(残差连接)连接一次再用步长为2的卷积缩小图像缩小二次,后面开始不断用卷积与残差组合,到开始分支,分出二个部分,每分出一个分支就把主支图像缩小次,最后加上主支部分一共三个分支,就是一共有3yolo层,其中主支部分缩小了五次,第一次分支缩小三次,第二次分支缩小四次。

从ResNet网络开始,开始隔层交流,不管是相加还是整合,如何在文件这种列表形式下描述分支结构?原来很简单,一次描述一个分支,然后用route/shortcut记录分支层,继续向下描述。

回到网络部分,这三次分支可以用这图表示,主支是32(2^5)倍那个,16与8是第二分支与第一分支,其中先算主支部分,算完主支然后上层卷积层upsample再与第二分支route一起算,第一分支同这逻辑。

https://img2018.cnblogs.com/blog/81011/201906/81011-20190627185257246-1999500330.pnghttps://img2018.cnblogs.com/blog/81011/201906/81011-20190627185308157-2145013874.png

 darknet种各层的主要有三个函数,分别是make_xxx_layer, forward_xxx_layer, backward_xxx_layer, 这三个函数make_xxx_layer是初始各种参数,根据参数自动算一些参数,如卷积层,根据传入特征图的大小与核的参数,就能算出传出特征图的大小,以及申请内存或是显存,forward_xxx_layer表示根据当前层参数计算预测,而backward_xxx_layer根据上层的delta(如上层是yolo层,delta就表示期望输出-预测输出)与输入计算梯度,并更新下层需要的delta,以及还有个update_xxx_layer用于根据backward_xxx_layer计算的梯度来更新参数。而yolo,region,detection,softmax这几种检测层相对卷积层来说,没有参数weight,主要用来计算delta(期望输出-预测输出).而反向传播就是从这个yolo的delta开始的,在yolo的反向传播中,先把这个delta给卷积层的delta,然后结合前一层的输出,求得当前层的梯度,并把delta结合当前层的weights求得新的delta,然后下一层卷积层根据这个delta梯度,循环下去更新所有参数。

4、训练答疑

 

问题

解决方法

如果你看到avg loss =nan 说明训练错误;

某一行的Class=-nan说明目标太大或者太小,某个尺度检测不到,属于正常

 

什么时候应该停止训练?

loss不在下降或者下降极慢的情况可以停止训练,一般loss=0.7左右就可以了

在训练集上测试正确率很高,在其他测试集上测试效果很差,说明过拟合了。

提前停止训练,或者增大样本数量训练

如何提高目标检测正确率包括IOU,分类正确率?

设置yolo random =1,增加不同的分辨率。或者增大图片本身分辨率。或者根据你自定义的数据集去重新计算anchor尺寸darknet.exe detector calc_anchors data/obj.data -num_of_clusters 9 -width 416 -height 416 then set the same 9 anchors in each of 3 [yolo]-layers in your cfg-file

如何增加训练样本?

样本特点尽量多样化,亮度,旋转,背景,目标位置,尺寸。添加没有标注框的图片和其空的txt文件,作为negative数据

训练的图片较小,但是实际检测图片大,怎么检测小目标?

  1. 使在用416*416训练完之后,也可以在cfg文件中设置较大的widthheight,增加网络对图像的分辨率,从而更可能检测出图像中的小目标,而不需要重新训练
  2. set `[route] layers = -1, 11`
  3. set ` [upsample] stride=4`

如果调大num后训练时Obj趋近0的话可以尝试调大object_scale

 

网络模型耗费资源多大?

[yolov3.cfg]  [236MB COCO-91]  [4GB GPU-RAM]

[yolov3.cfg]  [194MB VOC-20]  [4GB GPU-RAM]

[yolov3-tiny.cfg]  [34MB COCO-91]  [1GB GPU-RAM]

[yolov3-tiny.cfg]  [26MB VOC-20]  [1GB GPU-RAM]

GPU怎么训练?

1、首先用一个gpu训练1000次迭代后的网络,

2、再用多gpu训练

darknet.exe detector train data/voc.data cfg/yolov3-voc.cfg /backup/yolov3-voc_1000.weights -gpus 0,1,2,3  

有哪些命令行来对神经网络进行训练和测试?

1.检测图片: build\darknet\x64\darknet.exe detector test data/coco.data cfg/yolov3.cfg yolov3.weights  -thresh 0.25 xxx.jpg

 

2.检测视频:将test 改为 demo ; xxx.jpg 改为xxx.mp4

 

3.调用网络摄像头:将xxx.mp4 改为 http://192.168.0.80:8080/video?dummy=x.mjpg -i 0

 

4.批量检测:-dont_show -ext_output < data/train.txt >  result.txt

 

5.手持端网络摄像头:下载mjpeg-stream 软件, xxx.jpg 改为 IP Webcam / Smart WebCam

如何评价模型好坏?

build\darknet\x64\darknet.exe detector map data\defect.data cfg\yolov3.cfg backup\yolov3.weights

 

利用上面命令计算各权重文件,选择具有最高IoU(联合的交集)和mAP(平均精度)的权重文件

5./darknet编译格式

./darknet detector test <data_cfg> <models_cfg> <weights> <test_file> [-thresh] [-out]

./darknet detector train <data_cfg> <models_cfg> <weights> [-thresh] [-gpu] [-gpus] [-clear]

./darknet detector valid <data_cfg> <models_cfg> <weights> [-out] [-thresh]

./darknet detector recall <data_cfg> <models_cfg> <weights> [-thresh]

 

'<>'必选项,’[ ]‘可选项

  data_cfg:数据配置文件,egcfg/voc.data

  models_cfg:模型配置文件,egcfg/yolov3-voc.cfg

  weights:权重配置文件,egweights/yolov3.weights

  test_file:测试文件,eg*/*/*/test.txt

  -thresh:显示被检测物体中confidence大于等于 [-thresh] bounding-box,默认0.005

  -out:输出文件名称,默认路径为results文件夹下,eg-out "" //输出class_num个文件,文件名为class_name.txt;若不选择此选项,则默认输出文件名为comp4_det_test_"class_name".txt

  -i/-gpu:指定单个gpu,默认为0eg-gpu 2

  -gpus:指定多个gpu,默认为0eg-gpus 0,1,2

 

 

  • 3
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Linux创始人LinusTorvalds有一句名言:Talk is cheap, Show me the code.(冗谈不够,放码过来!)。 代码阅读是从入门到提高的必由之路。尤其对深度学习,许多框架隐藏了神经网络底层的实现,只能在上层调包使用,对其内部原理很难认识清晰,不利于进一步优化和创新。  YOLOv3是一种基于深度学习的端到端实时目标检测方法,以速度快见长。YOLOv3的实现Darknet是使用C语言开发的轻型开源深度学习框架,依赖少,可移植性好,可以作为很好的代码阅读案例,让我们深入探究其实现原理。  本课程将解析YOLOv3的实现原理和源码,具体内容包括: YOLO目标检测原理  神经网络及Darknet的C语言实现,尤其是反向传播的梯度求解和误差计算 代码阅读工具及方法 深度学习计算的利器:BLAS和GEMM GPU的CUDA编程方法及在Darknet的应用 YOLOv3的程序流程及各层的源码解析本课程将提供注释后的Darknet的源码程序文件。  除本课程《YOLOv3目标检测:原理与源码解析》外,本人推出了有关YOLOv3目标检测的系列课程,包括:   《YOLOv3目标检测实战:训练自己的数据集》  《YOLOv3目标检测实战:交通标志识别》  《YOLOv3目标检测:原理与源码解析》  《YOLOv3目标检测:网络模型改进方法》 建议先学习课程《YOLOv3目标检测实战:训练自己的数据集》或课程《YOLOv3目标检测实战:交通标志识别》,对YOLOv3的使用方法了解以后再学习本课程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值