Darknet-Yolov3训练自己的数据指导手册

最新推荐文章于 2024-07-09 12:28:50 发布

小楞

最新推荐文章于 2024-07-09 12:28:50 发布

阅读量1.9k

点赞数 5

分类专栏：深度学习yolov3

本文链接：https://blog.csdn.net/qq_33270279/article/details/103151282

版权

深度学习yolov3 专栏收录该内容

13 篇文章 2 订阅

订阅专栏

文章目录

# Darknet-Yolov3训练自己的数据指导手册

环境搭建：

1. 下载YOLOv3工程项目

git clone https://github.com/pjreddie/darknet  
cd darknet

因为在用此工程的过程中，对源码进行了修改，可以直接从下边路径copy一份，进行编译即可。

略，哈哈哈哈,理解万岁。

2. 修改Makefile配置

GPU=1 #如果使用GPU设置为1，CPU设置为0
CUDNN=1  #如果使用CUDNN设置为1，否则为0
OPENCV=0  #如果调用摄像头或者测试视频文件，还需要设置OPENCV为1，否则为0
OPENMP=0  #如果使用OPENMP设置为1，否则为0
DEBUG=0  #如果使用DEBUG设置为1，否则为0
…
CC=gcc
NVCC=/usr/local/cuda-8.0/bin/nvcc   #NVCC=nvcc 修改为自己的路径
AR=ar
...
ifeq ($(GPU), 1) 
COMMON+= -DGPU -I/usr/local/cuda-8.0/include/  #修改为自己的路径
CFLAGS+= -DGPU
LDFLAGS+= -L/usr/local/cuda-8.0/lib64 -lcuda -lcudart -lcublas -lcurand  #修改为自己的路径

保存完成后，在此路径下执行make，如果出现如下错误：

错误一：

Loadingweights from yolo.weights...Done!
CUDA Error:invalid device function
darknet: ./src/cuda.c:21: check_error: Assertion `0' failed.
Aborted (core dumped)

这是因为配置文件Makefile中配置的GPU架构和本机GPU型号不一致导致的。更改前默认配置如下（不同版本可能有变）：

ARCH= -gencode arch=compute_30,code=sm_30 \
      -gencode arch=compute_35,code=sm_35 \
      -gencode arch=compute_50,code=[sm_50,compute_50] \
      -gencode arch=compute_52,code=[sm_52,compute_52]
#      -gencode arch=compute_20,code=[sm_20,sm_21] \ This one is deprecated?
# This is what I use, uncomment if you know your arch and want to specify
# ARCH= -gencode arch=compute_52,code=compute_52

CUDA官方说明文档：

http://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index.html#virtual-architecture-feature-list

错误二：

如果出现/usr/bin/ld: 找不到 -lippicv；找不到nvcc
请参考：

https://blog.csdn.net/tmosk/article/details/76578082

然后重新编译即可

模型训练

1. 准备训练数据集

（1）准备的训练数据集文件夹的结构：

按下列文件夹结构，将训练数据集放到各个文件夹下面。

VOCdevkit                          #数据集名称（一般为项目名称）
—VOC2007                           #数据集子类名称（可以将搜集的不同的数据集以此种形式放置）
——Annotations                      #xml文件
——JPEGImages                       #图片文件

（2）生成yolo训练和测试所需要的数据集。

生成训练集和评估集的脚本在如下路径：

略，哈哈哈哈,理解万岁。

CreatTrainNameList.py脚本为生成训练数据集的脚本，CreatValidNameList.py脚本为生成评估集数据集的脚本，对脚本进行如下修改（以训练集为例）：

if __name__ == "__main__":
#========================================================================
sets=[( VOC2007, 'train'),( VOC2012,'train')] #（VOC2007，VOC2012两个数据集生成train数据集）
    classes = ["Person_HS"]                   #检测的类别
    parse = argparse.ArgumentParser()
    parse.add_argument("--input_path", type=str,default=' VOCdevkit', help="...") #项目名称
# =======================================================================

生成后的数据集的文件结果如下：

VOCdevkit
—VOC2007
——Annotations
——ImageSets
———Main
————train.txt /val.txt       #训练集和评估集在一起时，两个文档共存（一般选择分开）。
——JPEGImages

VOCdevkit_train.txt / VOCdevkit_val.txt #yolov3训练和评估时的索引文档。

2. 下载Imagenet上预先训练的权重

如果你选用基础网络为darknet53的yolov3时可以采用如下的预训练模型

wget https://pjreddie.com/media/files/darknet53.conv.74

3. 修改cfg/voc.data

classes= 2  #classes为训练样本集的类别总数（不包含背景）
train  = /home/user/darknet/ VOCdevkit _train.txt  #train的路径为训练样本集所在的路径
valid  = /home/user/darknet/ VOCdevkit _val.txt  #valid的路径为验证样本集所在的路径
names = data/voc.names  #names的路径为data/voc.names文件所在的路径
backup = backup  #模型的保存路径（文件夹必须保证在darknet文件夹下面已存在）

注：

如果觉得每次都得创建模型保存路径的文件夹费事，请按照下图对源码（example\detector.c）进行修改：

#include "darknet.h"
#include "unistd.h"
#include "sys/types.h"
#include "sys/stat.h"
...
void train_detector(char *datacfg, char *cfgfile, char *weightfile, int *gpus, int ngpus, int clear )
{
    list *options = read_data_cfg(datacfg);
    char *train_images = option_find_str(options, "train", "data/train.list");
    char *backup_directory = option_find_str(options, "backup", "/backup/");
    if(-1==access(backup_directory,00)){
        mkdir(backup_directory,S_IRWXU);}
...
}

4. 修改data/voc.name为样本集的标签名

Class1
Class2

5. 修改cfg/yolov3-voc.cfg

关于cfg修改，以10类目标检测为例，主要有以下几处调整（蓝色标出）：

[net]
# Testing             	### 测试模式                                          
# batch=1
# subdivisions=1
# Training            	### 训练模式，每次前向的图片数目 = batch/subdivisions 
batch=64
subdivisions=16
width=416           	### 网络的输入宽、高、通道数（可以直接修改，但是要修改网络避免深层网络的浪费）
height=416          	### 宽高比的比例可依据输入图像的尺寸进行设置（但需要为32的倍数）      
channels=3
momentum=0.9     		### 动量: DeepLearning1中最优化方法中的动量参数，这个值影响着梯度下降到最优值得速度。 详情参考：https://blog.csdn.net/qq_33270279/article/details/102796812
decay=0.0005         	### 权重衰减：权重衰减正则项，防止过拟合.每一次学习的过程中，将学习后的参数按照固定比例进行降低，为了防止过拟合，decay参数越大对过拟合的抑制能力越强。
angle=0              	###旋转角度（单位：度）
saturation = 1.5       	### 饱和度
exposure = 1.5        	### 曝光度 
hue=.1               	### 色调
learning_rate=0.001   	### 学习率的调整参考 ：https://blog.csdn.net/qq_33485434/article/details/80452941 
burn_in=1000         	### 模型预热，小于1000batch时采用（0-learning_rate）递增的方式。
max_batches = 50200  	### 迭代次数                                          
policy=steps         	### 学习率策略: 这个是学习率调整的策略，有policy：constant, steps, exp, poly, step, sig, RANDOM，constant等方式参考[https://nanfei.ink/2018/01/23/YOLOv2%E8%B0%83%E5%8F%82%E6%80%BB%E7%BB%93/#more](https://nanfei.ink/2018/01/23/YOLOv2调参总结/#more)            
steps=40000,45000   	### 学习率变动步长 
scales=.1,.1           	### 学习率变动因子  

[convolutional]
batch_normalize=1    	### BN
filters=32           	### 卷积核数目
size=3               	### 卷积核尺寸
stride=1             	### 卷积核步长
pad=1                	### pad
activation=leaky     	###激活函数的类型：linear（线性：不做改变）relu（值>0时保持不变，小于零时置零）leaky（值>0时保持不变，小于零时*0.1）

......

[convolutional]
size=1
stride=1
pad=1
filters=45              #每一个[region/yolo]层前的最后一个卷积层中的 filters=(classes+cords+1)*anchors_num，其中anchors_num 是该层mask的数量。如果没有maskanchors_num=num。coords+1：论文中的tx,ty,tw,th,to
activation=linear

[yolo]
mask = 6,7,8           #预测anchors[]中的后三个较大尺寸的anchor。因为其感受野较大
anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326 
						#(width, height)通过聚类脚本计算样本宽高
classes=2               #类别
num=9        			#如果在配置文件中anchors的数量大于num时,仅使用前num个,小于时内存越界。
jitter=.3               #利用数据抖动产生更多数据, jitter就是crop的参数， jitter=.3，就是在0~0.3中进行crop（具体的裁剪方式请参考src/data.c中的load_data_detection()函数）
ignore_thresh = .5  	#参数解释：ignore_thresh 指得是参与计算的IOU阈值大小。当预测的检测框与ground true的IOU大于ignore_thresh的时候，参与loss的计算，否则，检测框的不参与损失计算。参数目的和理解：目的是控制参与loss计算的检测框的规模，当ignore_thresh过于大，接近于1的时候，那么参与检测框回归loss的个数就会比较少，同时也容易造成过拟合；而如果ignore_thresh设置的过于小，那么参与计算的会数量规模就会很大。同时也容易在进行检测框回归的时候造成欠拟合。参数设置：一般选取0.5-0.7之间的一个值，之前的计算基础都是小尺（13*13）用的是0.7，（26*26）用的是0.5。这次先将0.5更改为0.7。 实验结果：AP=0.5121（有明显下降）
truth_thresh = 1
random=0               	#1，如果显存很小，将random设置为0，关闭多尺度训练；

......

[yolo]
mask = 3,4,5   			#预测anchors[]中的中间三个较小尺寸的anchor。因为其感受野适中
anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326
classes=2 
num=9
jitter=.3   
ignore_thresh = .5
truth_thresh = 1
random=0 

......

[yolo]
mask = 0,1,2  			#预测anchors[]中的前三个较小尺寸的anchor。因为其感受野较小
anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326 
classes=2  
num=9  
jitter=.3  
ignore_thresh = .5  
truth_thresh = 1  
random=0

#可以添加没有标注框的图片和其空的txt文件，作为negative数据（生成训练数据集的脚本已经支持，只需要添加图片即可）

#可以在第一个[yolo]层之前的倒数第二个[convolutional]层末尾添加 stopbackward=1,以此提升训练速度

#即使在用416*416训练完之后，也可以在cfg文件中设置较大的width和height，增加网络对图像的分辨率，从而更可能检测出图像中的小目标，而不需要重新训练。

6. 多尺度训练

原始的yolov3的多尺度训练如下：

random如果为1，每次迭代图片大小随机从320到608，步长为32，如果为0，每次训练大小与输入大小一致。

当修改训练的分辨率时(支持宽高比不为1:1)，需要修改尺度变化的范围，所以需要修改训练函数（example/detector.c）train_detector()和run_detector()如下所示：

void train_detector(char *datacfg, char *cfgfile, char *weightfile, int *gpus, int ngpus, int clear )
{
    ...

    int iDataWidth = net->w;
    int iDataHeight = net->h;
    int imgs = net->batch * net->subdivisions * ngpus;
    printf("Learning Rate: %g, Momentum: %g, Decay: %g\n", net->learning_rate, net->momentum, net->decay);
    data train, buffer;
    layer l = net->layers[net->n - 1];
    int classes = l.classes;
    float jitter = l.jitter;

    list *plist = get_paths(train_images);
    //int N = plist->size;
    char **paths = (char **)list_to_array(plist);

    load_args args = get_base_args(net);
    args.coords = l.coords;
    args.paths = paths;
    args.n = imgs;
    args.m = plist->size;
    args.classes = classes;
    args.jitter = jitter;
    args.num_boxes = l.max_boxes;
    args.d = &buffer;
    args.type = DETECTION_DATA;
    //args.type = INSTANCE_DATA;
    args.threads = 64;

    pthread_t load_thread = load_data(args);
    double time;
    int count = 0;
    //while(i*imgs < N*120){
    while(get_current_batch(net) < net->max_batches){
        if(l.random && count++%10 == 0){
            printf("Resizing\n");
        int iRand = rand() % 10;
            int dim_W = (iRand + iDataWidth / 32 - 2) * 32;
        float fRatio = dim_W * 1.0 / iDataWidth;
        //int dim_H = (iRand + iDataHeight / 32 - 2) * 32;
        int dim_H = (int)(iDataHeight * fRatio);
            if (get_current_batch(net)+200 > net->max_batches){
        dim_W = (iDataWidth / 32 + 5) * 32;
        fRatio = dim_W * 1.0 / iDataWidth;
        //dim_H = (iDataHeight / 32 + 5) * 32;
        dim_H = (int)(iDataHeight * fRatio);
        } 
        int delt_H=dim_H % 32;
        if(delt_H>16) dim_H=dim_H+32-delt_H;
        else dim_H=dim_H-delt_H; 
            printf("dim_W:%d\n", dim_W);
        printf("dim_H:%d\n", dim_H);
            args.w = dim_W;
            args.h = dim_H;

            pthread_join(load_thread, 0);
            train = buffer;
            free_data(train);
            load_thread = load_data(args);

            #pragma omp parallel for
            for(i = 0; i < ngpus; ++i){
                resize_network(nets[i], dim_W, dim_H);
        //printf("resize_network Done!");
            }
            net = nets[0];
        }
...
    
}

7.多GPU训练

So for one GPU, the relevant portion of the .cfg file would be:

learning_rate=0.001
burn_in=1000

And for two GPUs, the relevant portion of the .cfg file would be:

learning_rate=0.0005
burn_in=2000

And for four GPUs, the relevant portion of the .cfg file would be:

learning_rate=0.00025
burn_in=4000

8. 开始训练

./darknet detector train cfg/voc.data cfg/yolov3-voc.cfg darknet53.conv.74 -gpus 0,1 2>1 | tee train_yolov3.log

voc.data:数据集以及输出模型的保存路径

yolov3-voc.cfg：网络参数和网络结构文档

darknet53.conv.74：预训练模型（当训练中断后，也可加载“模型名.backup”继续训练）

2>1 | tee train_yolov3.log：保存的日志名称。

https://blog.csdn.net/zsl091125/article/details/85010833 (参考)

模型测试评估及样本的预标注

1. 测试

（1）测试图片

测试单张图片：

./darknet detector test <data_cfg> <test_cfg> <weights> <image_file>

<test_cfg>文件中batch和subdivisions两项必须为1。

测试时还可以用-thresh和-hier选项指定对应参数。

（2）生成预测结果

./darknet detector valid <data_cfg> <test_cfg> <weights> <out_file>

<test_cfg>文件中batch和subdivisions两项必须为1。

结果生成在<data_cfg>的results指定的目录下以<out_file>开头的若干文件中，若<data_cfg>没有指定results，那么默认为<darknet_root>/results。

对源码进行了修改可以用-thresh：

detector 中的valid函数不支持-thresh置信度阈值的设置，修改example/detector.c如下所示，并重新编译。

void validate_detector(char *datacfg, char *cfgfile, char *weightfile, char *outfile, float _thresh)
{
……
    //float thresh = .005;
    float thresh = _thresh;
	float nms = .45;
………
}
void run_detector(int argc, char **argv)
{
………
    else if(0==strcmp(argv[2], "valid")) validate_detector(datacfg, cfg, weights,outfile, thresh);
……………
}

（3）计算recall（执行这个命令需要修改detector.c文件，修改信息请参考“detector.c修改”）

./darknet detector recall <data_cfg> <test_cfg> <weights>

<test_cfg>文件中batch和subdivisions两项必须为1。

输出在stderr里，重定向时请注意。

RPs/Img、IOU、Recall都是到当前测试图片的均值。

detector.c中对目录处理有错误，可以参照validate_detector对validate_detector_recall最开始几行的处理进行修改。

（还未实现，实现过程可参考：https://blog.csdn.net/mieleizhi0522/article/details/79989754 ）

（4）测试视频

相应的参数请查看官网或者darknet/example/detector.c源码

./darknet detector demo cfg/coco.data cfg/yolov3.cfg yolov3.weights <video file>

（5）python接口测试（主要应用在评估工具的编写）

darknet/example/detector.py：无opencv编译时，运行。（修改相应的路径即可运行）

darknet/example/detector-scipy-opencv.py：有OpenCV编译，运行此脚本。（原脚本存在问题，需要修改，修改方法如下），包括两点：（上传的工程中，此部分已经做了修改）

a、/darknet/python/darknet.py 中，增加如下函数：

def detect_np(net, meta, im, thresh=.5, hier_thresh=.5, nms=.45):
    num = c_int(0)
    pnum = pointer(num)
    predict_image(net, im)
    dets = get_network_boxes(net, im.w, im.h, thresh, hier_thresh, None, 0, pnum)
    num = pnum[0]
    if (nms): do_nms_obj(dets, num, meta.classes, nms)
    res = []
    for j in range(num):
        for i in range(meta.classes):
            if dets[j].prob[i] > 0:
                b = dets[j].bbox
                res.append((meta.names[i], dets[j].prob[i], (b.x, b.y, b.w, b.h)))
    res = sorted(res, key=lambda x: -x[1])
    #free_image(im)
    free_detections(dets, num)
    print 'detect_np over'
	return res

b、detector-scipy-opencv.py中，‘#OpenCV’下边的代码全部删掉，改为如下代码

# OpenCV
arr = cv2.imread('../data/dog.jpg')
im = array_to_image(arr)
dn.rgbgr_image(im)
r = dn.detect_np(net, meta, im)
print r

2. c接口模型评估

（1）待标注样本数据集准备与训练数据集的准备基本相同，区别：没有标注文件夹。如下所示：

按下列文件夹结构，将预标注数据集放到各个文件夹下面。

VOCdevkit                          #数据集名称（一般为项目名称）
—VOC2007                           #数据集子类名称（可以将搜集的不同的数据集以此种形式放置）
——JPEGImages                       #图片文件

（2）生成yolo测试（预标注跟测试评估一致）所需要的数据集。

CreatValidNameList.py脚本为生成评估集数据集的脚本：

#-*- coding: utf-8 -*-
#######################################
#     本程序用于yolov3生成测试评估的数据集#
#######################################
import xml.etree.ElementTree as ET
import pickle
import os
from os import listdir, getcwd
from os.path import join

import sys,argparse

def checkpath(path):
    if not os.path.exists(path):
        print("错误的路径: {}".format(path))
        sys.exit()

def makepath(path):
    if not os.path.exists(path):
        os.makedirs(path)

if __name__ == "__main__":
     # ==================================================================================================================
    sets=[('VOC100', 'val')]
    parse = argparse.ArgumentParser()
    parse.add_argument("--input_path", type=str,default='Person', help="...")
    # ==================================================================================================================
    flags, unparsed = parse.parse_known_args(sys.argv[1:])
    input_path = flags.input_path
    checkpath(input_path)
    for year, image_set in sets:
        output_path = input_path+'/%s/ImageSets/Main'%(year)
        makepath(output_path)
        path = os.path.join(input_path, '%s'%(year), 'JPEGImages')
        imgs = os.listdir(path)
        save_path = os.path.join(output_path, 'val.txt')
        fw = open(save_path, 'w')
        for img in imgs:
            print(img)
            img_name = img.split('.')[0]
            fw.write(img_name + '\n')
        fw.close()

    wd = getcwd()
    list_file = open(input_path+'_val.txt', 'a')
    for year, image_set in sets:
    	image_ids = open(input_path+'/%s/ImageSets/Main/%s.txt'%(year, image_set)).read().strip().split('\n')
    	for image_id in image_ids:
        	list_file.write('%s/'%(wd)+input_path+'/%s/JPEGImages/%s.jpg\n'%(year, image_id))
    list_file.close()

生成后的数据集的文件结果如下：

VOCdevkit
—VOC2007
——ImageSets
———Main
————val.txt       
——JPEGImages

VOCdevkit_val.txt #yolov3评估时的索引文档。

（3）生成comp4_det_test_命名.txt（在result中）

./darknet detector valid cfg/voc.data cfg/yolo-voc.cfg backup/yolo-voc.weights –thresh 0.05

voc.data文件里修改如下：

classes= 2  #classes为训练样本集的类别总数
valid  = /home/user/darknet/ VOCdevkit _val.txt  #valid的路径为评估样本集所在的路径
names = data/voc.names  #names的路径为data/voc.names文件所在的路径

（4）用Yolov3ResultToxml.py脚本生成所需的xml文件。

Yolov3ResultToxml.py路径如下：

略，哈哈哈哈,理解万岁。

#-*-coding:utf-8-*-
#######################################
#     本程序用于yolo评估模型：将生成的目标框信息（txt）转换为xml文件#
#######################################
...
if __name__ == "__main__":
    #=======================================================================
    parse = argparse.ArgumentParser()
    parse.add_argument("--txt_path", type=str, default='xxx.txt',
                       help="yoloV3生成的txt")
    parse.add_argument("--img_path", type=str, default='.../JPEGImages/', help="图像路径")
    parse.add_argument("--output_path", type=str, default='xxx2.txt',
                       help="保存的新txt")
    parse.add_argument("--save_path", type=str, default='xxx',
                       help="生成xml的保存路径")
    #==========================================================================
    #xml文件配置
    config = {
       'roi_size': [1920, 1080, 3],  # 图片大小
       'roi_num': 0,  # 生成xml数 应等于图片数
       'obj_name': ['Car','Person_HS'],   # 此脚本未用
       'count': 0,   # 此脚本未用
    }
    #===========================================================================
   ...

（5）生成的xml与测试集gt_xml通过评估工具进行评估（AutoAssessTool工具）。

略，哈哈哈哈,理解万岁。

3. python接口模型评估

略，哈哈哈哈,理解万岁。

（1）正样本评估

1.准备评估集（与训练集有相同的样本分布，最少为训练集的一半）

VOCdevkit                          #数据集名称（一般为项目名称）
—VOC2007                           #数据集子类名称（可以将搜集的不同的数据集以此种形式放置）
——Annotations                      #xml文件
——JPEGImages                       #图片文件

2.评估集检测

略，哈哈哈哈,理解万岁。

运行环境：python3+cv2，其他环境由yolov3以及ssd编译环境而定。

##################################################
#目标检测，并生成xml，目前支持yolov3和ssd
#Author          : 小楞
#Created         : 2019-09-06
#备注：用于样本的与标注以及测试集的评估（与AutoAssessTool工具配合使用）##################################################
...
if __name__ == "__main__":
    # ==============修改输入参数=====================
    parse = argparse.ArgumentParser()
    parse.add_argument("--input_path", type=str, default='.../value_data',
                        help="评估数据集路径，下边包含一个或多个样本集")
    parse.add_argument("--model_path", type=str, default='.../models',
                       help="保存模型的文件夹，其中每个模型又是一个文件夹，一个模型文件包括：.weights .cfg .names .data")
    parse.add_argument("--output_path", type=str, default='.../detetct_xml_result',
                        help="检测结果保存在xml文件中")
    parse.add_argument("--thresh", type=float,default=0.05, help="置信度阈值")
    # ==========修改输入参数end=======================

3.模型自动评估

略，哈哈哈哈,理解万岁。

##################################################
#   File Name:  autotest.py
#   Author：    小楞
#   Created:   2019.8.30
#   Description:  自动模型评测系统
##################################################
...
if __name__ == '__main__':
    tester = Tester(
        output_path='..\\Annotations',#检测出的xml
        gt_path='...\\Annotations',#标注的xml
        log_path='example.txt', save_log=True, pr_steps=0.01,#配置参数
        readin=True, readin_paths=['compare.txt'])#带比较的评估结果
    tester.test()

4.评估结果详细分析：

会分别保存误检和漏检结果，具体问题具体分析。

略，哈哈哈哈,理解万岁。

##################################################
#根据生成的评测样本的xml结果与gt_xml比较，得到误检和漏检。
#Author          : 小楞
#Created         : 2019-09-06
#备注：支持多模型同时评测，接受dete_xml_generate工具生成的结果。##################################################
...
 # =================修改输入参数=============================================
    parse = argparse.ArgumentParser()
    parse.add_argument("--gt_path", type=str, default='...\\TestSets',help="评估数据集gt路径，下边包含一个或多个Set，每个set下包括JPEG和XML文件夹")
    parse.add_argument("--det_path", type=str, default='...\\detetct_xml_generate_result',help="评估数据集det路径，下边包含一个或多个Set，每个set下包括JPEG和XML文件夹")
    parse.add_argument("--model_path", type=str, default='...\\models',help="模型路径，第二层文件夹，运行一次只能评估一个模型")
    parse.add_argument("--output_path", type=str,default='...\\positive_samples_evaluation_false',help="错误检测结果保存路径")
    parse.add_argument("--conf_thresh", type=float, default=0.05, help="置信度阈值")
    parse.add_argument("--pos_overlap", type=float, default=0.3, help="IOU阈值")
 # ===============修改输入参数end============================================

5.板卡芯片结果评估：

略，哈哈哈哈,理解万岁。

##################################################
#板卡芯片检测结果txt准换成xml用于评估
#Author          : 小楞
#Created         : 2019-09-07
##################################################
...
# ==========修改输入参数=============================================
    parse = argparse.ArgumentParser()
    parse.add_argument("--Ori_TxtPath", type=str, default='...\\resulttest', help="原始txt文件路径")
    parse.add_argument("--Det_AnnoPath", type=str,default='...\\resulttest_xml',help="xml文件路径")
# =========修改输入参数end============================================

用autotest.py进行评估。

（2）负样本评估

1.纯负样本的获取：

网络爬图工具：略，哈哈哈哈,理解万岁。

Crawl_Pictures.py
names.txt

在names.txt中写入需要下载图片的关键词即可，需要设置需要下载图片的数量如下：

C:\soft\Anaconda3\python.exe .../Crawl_Pictures.py
请输入每类图片的下载数量 500
正在检测图片总数，请稍等.....
经过检测山路类图片共有1020张
找到关键词:山路的图片，即将开始下载图片...
正在下载第1张图片，图片地址:http://www.fotosay.com/userimages/blogimages/2010/1026/zndnn/10521382527b.jpg

2.负样本评估：

负样本检测脚本：略，哈哈哈哈,理解万岁。

##################################################
#纯负样本评估，输出各个模型不同类别的误检情况。
#Author          : 小楞
#Created         : 2019-09-06
#备注：支持yolov3和ssd，支持多模型同时对比评测。##################################################
...
# =============修改输入参数=============================================
    parse = argparse.ArgumentParser()
    parse.add_argument("--img_path", type=str, default='.../Bg_img',help="负样本图片路径")
    parse.add_argument("--model_path", type=str, default='.../models',help="保存模型的文件夹，其中每个模型又是一个文件夹")
    parse.add_argument("--conf_thresh", type=float, default=0.2, help="置信度阈值")
    parse.add_argument("--is_save_false", type=int, default=1, help="1表示保存檢測錯誤的結果")
    parse.add_argument("--output_path", type=str, default=".../neg_img_result",help="结果保存路径")
    parse.add_argument("--isresize", type=int, default=0, help="是否将原图片填补为宽高比1：1的图片")
# ===========修改输入参数end============================================

负样本结果分析：略，哈哈哈哈,理解万岁。

##################################################
#分析负样本评估打印日志，输出不同模型误检情况的柱状图
#Author          : 小楞
#Created         : 2019-09-06
#关键词：二维字典，二维并列柱状图
##################################################
...
if __name__ == "__main__":
    # ================修改输入参数=============================================
    configs = {
        'Neg_ResultPath': '...\\neg_result.txt',
        'label_list': ['class1', 'class2'],
    }
    # ==============修改输入参数end============================================

可能的疑问

1. 训练过程的可视化

Loss可视化：

在这里插入图片描述

IOU可视化：

在这里插入图片描述

参考：

https://blog.csdn.net/cgt19910923/article/details/80783614

修改好的脚本文件如下路径：

略，哈哈哈哈,理解万岁。

2. 训练日志的解读

因为.cfg文件中定义batch=64，每个batch分为8组，所以打印8组信息。每组包含三个yolo层的训练信息。
在这里插入图片描述
Region xx: cfg文件中yolo-layer的索引；

**Avg IOU:**当前迭代中，预测的box与标注的box的平均交并比，越大越好，期望数值为1；

Class: 标注物体的分类准确率，越大越好，期望数值为1；

obj: 越大越好，期望数值为1；

No obj: 越小越好；

.5R: 以IOU=0.5为阈值时候的recall; recall = 检出的正样本/实际的正样本

0.75R: 以IOU=0.75为阈值时候的recall;

**count:**正样本数目。

7634：指示当前训练的迭代次数;

1.077007：是总体的 Loss(损失）;

0.980247 avg：是平均 Loss, 这个数值应该越低越好, 一般来说, 一旦这个数值低于 0.060730 avg 就可以终止训练了;

0.001000 rate：代表当前的学习率, 是在.cfg文件中定义的;

7.004570 seconds：表示当前批次训练花费的总时间;

488576 images：这一行最后的这个数值是 979864ngpus 的大小, 表示到目前为止, 参与训练的

在这里插入图片描述

如果出现上图-nan的情况，不要慌：只是说明本组图像中在此尺度下的特征图中检测不到正样本而已。

3. 训练日志的简化

目的：

解决训练过程中cpu吃紧的问题。

解决办法：

detector-nolog.c替换darknet\examples\detector.c

yolo_layer-nolog.c替换darknet\src\yolo_layer.c

（文件在：略，哈哈哈哈,理解万岁。）

重新make即可。

4. 模型保存问题

A：保存模型出错？

一般是 .data 文件中指定的文件夹无法创建，导致模型保存时出错。自己手动创建即可。

B：模型什么时候保存？如何更改

迭代次数小于1000时，每100次保存一次，大于1000时，每10000次保存一次。

自己可以根据需求进行更改，然后重新编译即可[ 先 make clean ,然后再 make]。

代码位置： examples/detector.c line 138
在这里插入图片描述
C：使用预训练模型直接保存问题

darknet53.conv.74作为预训练权重文件，因为只包含卷积层，所以可以从头开始训练。

xxx.weights作为预权重文件训练，因为包含所有层，相当于恢复快照训练，会从已经保存的迭代次数往下训练。如果cfg中迭代次数没改，所以不会继续训练，直接保存结束。

5. 网络文件格式问题

问题：

在这里插入图片描述

原因：

配置文件的编码问题，将文件格式改为unix格式。（在linux下，拷贝的文件来自windows）

解决：

在vim下输入 :set ff=unix

保存退出。

6. 个别服务器编译Darknet

进行编译，训练时会出现如下报错：

在这里插入图片描述

原因：未知（代码中有除0操作，出现段错误，但是其他服务器未出现此错误）

暂时解决方案：

拷贝编译好的框架直接使用即可：scp -r host@…: …/darknet ./

其他问题请参考如下链接：

https://blog.csdn.net/lilai619/article/details/79695109

网络的裁剪与优化

1. Yolov3 的网络结构

在这里插入图片描述
DBL: 如图1左下角所示，也就是代码中的Darknetconv2d_BN_Leaky，是yolo_v3的基本组件。就是卷积+BN+Leaky relu。对于v3来说，BN和leaky relu已经是和卷积层不可分离的部分了(最后一层卷积除外)，共同构成了最小组件。

resn**：**n代表数字，有res1，res2, … ,res8等等，表示这个res_block里含有多少个res_unit。这是yolo_v3的大组件，yolo_v3开始借鉴了ResNet的残差结构，使用这种结构可以让网络结构更深(从v2的darknet-19上升到v3的darknet-53，前者没有残差结构)。对于res_block的解释，可以在图1的右下角直观看到，其基本组件也是DBL。

concat**：**张量拼接。将darknet中间层和后面的某一层的上采样进行拼接。拼接的操作和残差层add的操作是不一样的，拼接会扩充张量的维度，而add只是直接相加不会导致张量维度的改变。

2. Darknet53基础网络

在这里插入图片描述
整个v3结构里面，是没有池化层和全连接层的。前向传播过程中，张量的尺寸变换是通过改变卷积核的步长来实现的，比如stride=(2, 2)，这就等于将图像边长缩小了一半(即面积缩小到原来的1/4)。在yolo_v2中，要经历5次缩小，即1/32。输入为416x416，则输出为13x13(416/32=13)。yolo_v3也和v2一样，backbone都会将输出特征图缩小到输入的1/32。所以，通常都要求输入图片是32的倍数。

3. 裁剪优化的方向

\1. 主干网络裁剪

（1）减少res基础结构个数。

（2）减少通道数。（2的指数倍）

（3）减少降维的倍率。

（4）改变降维方式：卷积降维改为pooling（在裁剪的最终网络中，每修改一处，效率提升10个点左右，但是效果有所下降。仅供参考）

在这里插入图片描述

\2. 降低分辨率

必须为降维倍率的整数倍，最好为基数倍（这样回归的框会比较准）。

\3. Yolo层以及anchor的裁剪

在尺度变换不是很大的应用场景，可以减少anchor的数量，以及yolo的层数。

在这里插入图片描述

yolo v3输出了3个不同尺度的feature map，如上图所示的y1, y2, y3。这也是v3论文中提到的为数不多的改进点：predictions across scales

这个借鉴了FPN(feature pyramid networks)，采用多尺度来对不同size的目标进行检测，越精细的grid cell就可以检测出越精细的物体。

y1,y2和y3的深度都是255，边长的规律是13:26:52

对于COCO类别而言，有80个种类，所以每个box应该对每个种类都输出一个概率。yolo v3设定的是每个网格单元预测3个box，所以每个box需要有(x, y, w, h, confidence)五个基本参数，然后还要有80个类别的概率。所以3*(5 + 80) = 255。这个255就是这么来的。

优化关注点：

第一点， 9个anchor会被三个输出张量平分的。根据大中小三种size各自取自己的anchor。

第二点，作者使用了logistic回归来对每个anchor包围的内容进行了一个目标性评分(objectness score)。根据目标性评分来选择anchor prior进行predict，而不是所有anchor prior都会有输出。

4. 裁剪实例

layer     filters    size              input                output
    0 conv     16  3 x 3 / 1   224 x 224 x   3   ->   224 x 224 x  16  0.043 BFLOPs
    1 max          2 x 2 / 2   224 x 224 x  16   ->   112 x 112 x  16
    2 conv     32  3 x 3 / 1   112 x 112 x  16   ->   112 x 112 x  32  0.116 BFLOPs
    3 max          2 x 2 / 2   112 x 112 x  32   ->    56 x  56 x  32
    4 conv     64  3 x 3 / 1    56 x  56 x  32   ->    56 x  56 x  64  0.116 BFLOPs
    5 conv    128  3 x 3 / 2    56 x  56 x  64   ->    28 x  28 x 128  0.116 BFLOPs
    6 conv     64  1 x 1 / 1    28 x  28 x 128   ->    28 x  28 x  64  0.013 BFLOPs
    7 conv    128  3 x 3 / 1    28 x  28 x  64   ->    28 x  28 x 128  0.116 BFLOPs
    8 res    5                  28 x  28 x 128   ->    28 x  28 x 128
    9 conv     64  1 x 1 / 1    28 x  28 x 128   ->    28 x  28 x  64  0.013 BFLOPs
   10 conv    128  3 x 3 / 1    28 x  28 x  64   ->    28 x  28 x 128  0.116 BFLOPs
   11 res    8                  28 x  28 x 128   ->    28 x  28 x 128
   12 conv    256  3 x 3 / 2    28 x  28 x 128   ->    14 x  14 x 256  0.116 BFLOPs
   13 conv    128  1 x 1 / 1    14 x  14 x 256   ->    14 x  14 x 128  0.013 BFLOPs
   14 conv    256  3 x 3 / 1    14 x  14 x 128   ->    14 x  14 x 256  0.116 BFLOPs
   15 res   12                  14 x  14 x 256   ->    14 x  14 x 256
   16 conv    128  1 x 1 / 1    14 x  14 x 256   ->    14 x  14 x 128  0.013 BFLOPs
   17 conv    256  3 x 3 / 1    14 x  14 x 128   ->    14 x  14 x 256  0.116 BFLOPs
   18 res   15                  14 x  14 x 256   ->    14 x  14 x 256
   19 conv    128  1 x 1 / 1    14 x  14 x 256   ->    14 x  14 x 128  0.013 BFLOPs
   20 conv    256  3 x 3 / 1    14 x  14 x 128   ->    14 x  14 x 256  0.116 BFLOPs
   21 conv     18  1 x 1 / 1    14 x  14 x 256   ->    14 x  14 x  18  0.002 BFLOPs
   22 yolo
   23 route  19
   24 conv    128  1 x 1 / 1    14 x  14 x 128   ->    14 x  14 x 128  0.006 BFLOPs
   25 upsample            2x    14 x  14 x 128   ->    28 x  28 x 128
   26 route  25 11
   27 conv     64  1 x 1 / 1    28 x  28 x 256   ->    28 x  28 x  64  0.026 BFLOPs
   28 conv    128  3 x 3 / 1    28 x  28 x  64   ->    28 x  28 x 128  0.116 BFLOPs
   29 conv     18  1 x 1 / 1    28 x  28 x 128   ->    28 x  28   18  0.004 BFLOPs
   30 yolo

5. 裁剪设计工具

支持基于yolov3原始网络的网络设计和裁剪，主要功能有参数设定，通道裁剪，以及结构的裁剪设计。

工具路径：

略，哈哈哈哈,理解万岁。

Yolov3_Net_Design.py配置文件信息如下：

##################################################
#自动裁剪yolov3网络
#Author          : 小楞
#Created         : 2019-08-19
#注：目前支持yolov3网络的通道裁剪，参数设定, 结构裁剪。
#问题：   配置文件的编码问题，将文件格式改为unix格式。（在linux下，拷贝的文件来自windows）
#解决：   在vim下 输入  :set ff=unix
#参考：网络裁剪算力与裁剪方式减少比值之间的关系
#     1.算力减少比例/像素点个数减少比例：1
#     2.算力减少比例/通道数裁剪比例：1.7
#     3.算力减少比例/res模块减少数：0.02-0.03
##################################################
...
# 设置配置参数configs = {    
'classNum':22,#检测的类别数    
 'yoloNum':3,#yolo层的个数，暂不支持修改    
 'width':608,    
 'height':352,#输入分辨率    
 'angle':5,#样本旋转    
 'random':1,#是否开启多尺度训练  
 'ignore_thresh':.5,#参与loss计算的Iou阈值，参考0.5-0.7，标注质量（框的位置）较差时选用0.5较好。
 'filt_ReduceRatio': 0.75,#通道缩减比例    
 'base_Module':{'res1':0,'res2':0,'res8_1':0,'res8_2':0,'res4':0},#建议裁剪res8_1和res8_2;参考值：'res1':1,'res2':2,'res8_1':8,'res8_2':8,'res4':4    
 'anchors': 'anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326',    
 'ori_CfgDir': "...\yolov3_ori.cfg",   
 'det_CfgDir': "...\\yolov3_manual.cfg",}

按照如上结构进行网络参数配置，即可自动生成所需网络。

Yolov3_Compute_Ops.py配置文件：

##################################################
#计算yolov3算力
#Author          : 小楞
#Created         : 2019-09-03
#注：需要darknet框架输出的单层算力值
#结论：网络裁剪算力与裁剪方式减少比值之间的关系
#     1.算力减少比例/像素点个数减少比例：1
#     2.算力减少比例/通道数裁剪比例：1.7
#     3.算力减少比例/res模块减少数：0.020.03
##################################################
...
# 设置配置参数
configs = {'ori_CfgDir': "...\\darknet_yolov3net.txt",}

darknet_yolov3net.txt为darknet训练时，打印的网络结构：

yolov3
layer     filters    size              input                output
    0 conv     32  3 x 3 / 1   608 x 608 x   3   ->   608 x 608 x  32  0.639 BFLOPs
    1 conv     64  3 x 3 / 2   608 x 608 x  32   ->   304 x 304 x  64  3.407 BFLOPs
    2 conv     32  1 x 1 / 1   304 x 304 x  64   ->   304 x 304 x  32  0.379 BFLOPs
    3 conv     64  3 x 3 / 1   304 x 304 x  32   ->   304 x 304 x  64  3.407 BFLOPs
    4 res    1                 304 x 304 x  64   ->   304 x 304 x  64
    ...
   82 yolo
   83 route  79
   84 conv    256  1 x 1 / 1    19 x  19 x 512   ->    19 x  19 x 256  0.095 BFLOPs
   85 upsample            2x    19 x  19 x 256   ->    38 x  38 x 256
   86 route  85 61
    ...
   94 yolo
   95 route  91
   96 conv    128  1 x 1 / 1    38 x  38 x 256   ->    38 x  38 x 128  0.095 BFLOPs
   97 upsample            2x    38 x  38 x 128   ->    76 x  76 x 128
   98 route  97 36
    ...
  106 yolo

Yolo的caffe部署

1. 背景

在工程应用中，yolo的部署方式有很多种，但是由于各种原因，选择了caffe环境部署。所以需要将yolo的模型以及网络文件转换为caffe格式。

2. yolov3的网络结构

想要转化为Caffe框架，就要先了解yolov3的网络结构，如下图。

在这里插入图片描述

如果有运行过darknet应该会很熟悉，这是darknet运行成功后打印log信息，这里面包含了yolo网络结构的一些信息。yolov3与v2相比，网络结构中加入了残差（shortcut层），并且引入了上采样（upsample层），并为了将采样后的特征图进行融合引入了拼接（route层），最后融合的特征图以三个不同的大小131375,262675,525275输入给yolo层最后得到目标的位置及分类信息，加上卷积层convolution，这些便是yolov3的网络基本构造。因此只要我们如果在Caffe中找到对应的层按照相应的进行构造就能够使用Caffe实现yolov3了。

在这里插入图片描述

卷积层不说，yolov3中的shortcut层可以用eltwise替代，route层可以用concat替代，而upsample层和yolo层则需要自己实现，并添加到Caffe中即可。upsample层主要完成了上采样的工作，这里不细说。本文主要讲一下yolo层如何实现，上图中的YOLO Detection即为yolo层的所在位置，接收三种不同大小的特征图，并完成对特征图的解析，得到物体的位置和类别信息。所以其实yolo层主要起到了解析特征并输出检测结果的作用，这一过程我们完全可以在外部实现而无需加入到网络结构当中，也就是说我们无需将实现的yolo层加入到Caffe当中去。

3. 如何实现

下面这部分将着重讲一下如何实现从darknet向caffe的转换，首先这一过程要感谢chenyingpeng提供的代码。

参考（https://blog.csdn.net/Chen_yingpeng/article/details/80692018）。

1.加入upsample层并编译Caffe

upsample层的代码在（https://pan.baidu.com/s/13GpoYoqKSCeFX0m0ves_fQ#list/path=%2F 提取码：bwrd）

其中的upsample_layer.hpp放入include/caffe/layers下面；upsample_layer.cpp与upsample_layer.cu放在src/caffe/layers下面。

修改相应的caffe.proto文件，src/caffe/proto/caffe.proto中的LayerParameter的最后一行加入加入：

 message LayerParameter {
        .....
        optional UpsampleParameter upsample_param = 149;
    }

注意149为新层的ID号，该ID号请根据个人的caffe.proto文件指定即可。

然后再caffe.proto中添加upsample层的参数：

    message UpsampleParameter{
      optional int32 scale = 1 [default = 1];
    }

紧接着重新编译Caffe，这样就完成了在Caffe中添加upsample层。

上面说过转换到Caffe后只包含推理过程，因此我们需要将训练好的模型（.cfg）和权重文件(.weights)转换到对应Caffe下的.proto和.caffemodel,代码可以借鉴github上的模型转换工具（https://github.com/marvis/pytorch-caffe-darknet-convert ）。该工具需要pytorch支持请自行百度安装安装。

且该工具应用于Yolov2,因为我们在Caffe中加入了相应的upsample层并且yolov3和v2的网络结构有变化，因此需要替换相应的darknet2caffe.py，代码在这里（略，哈哈哈哈,理解万岁。）。

yolov3-darknet2caffe.py脚本需要修改caffe路径，如下图：

在这里插入图片描述

至此我们的准备工作就结束了，这样通过Caffe我们就能得到相应的blobs，这些blobs里包含的信息和darknet输入给yolo层的信息是一样的。接下来我们将展示如何转换模型：

把要转的yolov3的模型（yolov3.weights）和模型文件（yolov3.cfg(测试网络)）copy到pytorch-caffe-darknet-convert目录下；

执行如下命令：

python yolov3_darknet2caffe.py yolov3.cfg yolov3.weights yolov3.prototxt yolov3.caffemodel

上面转换后的模型不包含yolo层，需要在部署的环境中自己实现yolo层的编写（不要担心，当然是已经做好了，直接用就行）。需要注意的是：yolo层中包含许多所使用模型信息（种类、anchor信息），需要与所训模型匹配（也不用担心找不到相关的参数：相关的参数在生成的.proto文件最后边）。

因此我们转换到Caffe框架下的yolov3也仅能实现推理过程，具体的训练还需要通过darknet来完成。

4. 出现的错误

报错如下：

运行darknet2caffe.py后生成了.prototxt文件没能生成.caffemodel文件，报错如下：

 unknow layer type yolo [libprotobuf ERROR google/protobuf/text_format.cc:274] Error parsing text-format caffe.NetParameter: 2622:20: Message type "caffe.LayerParameter" has no field named "upsample_param". WARNING: Logging before InitGoogleLogging() is written to STDERR F0831 16:30:17.545022 32644 upgrade_proto.cpp:79] Check failed: ReadProtoFromTextFile(param_file, param) Failed to parse NetParameter file: yolov3.prototxt *** Check failure stack trace: *** 已放弃 (核心已转储)

解决办法：

Caffe编译有问题，重新按要求编译caffe。（如果出现在caffe路径下不能进行编译，请在build路径下进行编译。）

make clean
make all
make pycaffe

Darknet2ncnn

1. 环境搭建

下载darknet2ncnn工程项目

git clone https://github.com/xiangweizeng/darknet2ncnn.git

darknet2ncnn目录：
在这里插入图片描述

其中，darknet与ncnn需要单独下载，并放置该目录文件夹中。

按照README.md文件的编译过程，进行编译

遇到并解决的问题

在这里插入图片描述

报错：/usr/bin/ld: 找不到 -lippicv

collect2: error: ld returned 1 exit status

解决办法：

cp /home/username/opencv-3.1.0/3rdparty/ippicv/unpack/ippicv_lnx/lib/intel64/liboppicv.a

至 /usr/local/lib

参考博客：https://blog.csdn.net/dengshuai_super/article/details/51895120

2. 模型转换

环境搭建之后，可以进行模型转换，有以下几种形式：

转换（仅生成转换之后的模型文件）

./darknet2ncnn data/yolov3-Person3-416_PileG_Digt.cfg data/yolov3-Person3-416_PileG_Digt.weights example/zoo/yolov3-Pile_Digt.param example/zoo/yolov3-Pile_Digt.bin

转换+测试（生成转换之后的模型文件，同时可以测试单帧图片相应的效果）

./convert_verify data/yolov3-Person3-416_PileG_Digt.cfg data/yolov3-Person3-416_PileG_Digt.weights example/zoo/yolov3-Pile_Digt.param example/zoo/yolov3-Pile_Digt.bin example/data/14.jpg

图片测试(仅输出打印检测结果，不会保存检测结果图片)

./classifier zoo/yolov3-Pile_Digt.param zoo/yolov3-Pile_Digt.bin data/14.jpg data/PileDigt.names

图片测试（打印检测结果，同时保存检测结果图片）

./yolo zoo/yolov3-Pile_Digt.param zoo/yolov3-Pile_Digt.bin data/14.jpg data/PileDigt.names

详细介绍可参考下载文件中的README.md文件

小楞

关注

5
点赞
踩
25

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录