【YOLO学习笔记——数据集】之一YOLO数据集制作2

最新推荐文章于 2024-07-02 21:00:49 发布

水亦心

最新推荐文章于 2024-07-02 21:00:49 发布

阅读量7.4k

点赞数 15

分类专栏：深度学习人工智能计算机视觉文章标签： YOLO数据集制作数据集训练

本文链接：https://blog.csdn.net/shuiyixin/article/details/82915105

版权

人工智能同时被 3 个专栏收录

35 篇文章 20 订阅

订阅专栏

计算机视觉

27 篇文章 28 订阅

订阅专栏

深度学习

24 篇文章 36 订阅

订阅专栏

说在前面的话

小编要考研，所以博客可能更新较慢，希望大家理解。但是写博客要坚持，每个月最少四篇吧。这段时间会以考研为主，因为要涉及到毕业论文，所以很多博客是和我的毕业设计有关系。感谢每一个支持我，点击我博客观看的人，你们也是我坚持写博客的动力，我希望能把我知道的内容一起和大家分享，也希望大家能够和我一起交流。在计算机这条路上，我们一直在一起。

如果你有什么问题，希望跟我能够一起交流，除了通过博客交流外，欢迎你加入我的QQ群，一起交流有关于机器学习、深度学习、计算机视觉有关内容。目前我并未确定具体的研究方向，所以现在处于广泛涉猎阶段，希望我们能够一起沟通。下图是我的群二维码：

还有今天是国庆节，7天小长假，祝福大家国庆节快乐，出去游玩的朋友注意自身安全，保管好自己财务，玩的开心。

下面我们回归主题，上一篇关于YOLO的博客是数据集的制作，这一次给大家讲的是数据集的训练。

这个时候要用到Python了，因为Python读写文件真的很方便，关于Python，如果大家不太熟悉，请看我的相关博客：Python系列。这一系列博客没有很详细的从入门开始一直讲到精通，个人认为，精通一门编程语言，了解其他语言的基本语法即可，剩下的，大多数都是相通的。工作用到什么的时候，多加使用就可以了，应该把更多的重心放在架构，算法，数据结构，编程思想等其他方面，而不是广泛精通好几门编程语言。当然这只是我个人观点，给大家作为参考。

一、准备工作

1、硬件设备

我们需要一台电脑，最好是台式机，尽量不要用笔记本，我跟同学在做一个姿态识别项目的时候，电脑烧了，真的是烧了，所以还是用一个台式机，当然，如果不方便，并且你是在学习，而不是真的在训练，用笔记本也是可以的。

除了笔记本与台式机之外，还有一个很重要，电脑的硬件配置，有没有一个NVIDIA的GPU，真的不是给它做广告，这个真的很重要，没有GPU和有GPU的训练速度差别真的是很大的。GPU使用NIVDIA的。因为我们要用到CUDA及CUDNN，AMD的显卡目前还没有找到能应用CUDA的方法。

所以最好的配置是台式机，必须要有一个NVIDIA的显卡。

2、工具

这次我们用到的工具主要有如下：

1.VS2015（C++）

需要配置OpenCV和CUDNN，CUDNN需要下载和你电脑CUDA对应版本的，这个需要上NVIDIA官网下载，输入电脑显卡型号，找到对应版本下载就好了。至于OpenCV，老朋友了，OpenCV安装及教程请点击：OpenCV安装教程。至于版本嘛，3.0.0 - 3.4.0 都可以。

相关的配置如下，注意下图的路径是我自己的路径，大家注意更换路径，所以就不给大家弄文字，直接图片给大家，方便大家看

2.PyCharm（Python）

需要对文件进行操作，没有安装的点击：安装教程安装即可，需要查看相关理论基础请点击：Python系列。

3.训练所需文件

Darknet下载：链接。

darknet19_448.conv.23：该文件可以点击链接直接下载：

wget https://pjreddie.com/media/files/darknet19_448.conv.23

YOLO权重文件及配置文件：配置文件下载。

二、数据集训练

1、图片预处理

预处理就是在训练之前需要对标注好的数据做一定处理。因为数据量比较大，我们需要对文件进行批处理，靠手动可以实现，但是一年半载都过来处理这个数据，还不如好好享受人生，所以我们让代码帮助我们完成。

在这里我们要用到Python语言了，用到的是PyCharm，PyCharm是一种Python IDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外，该IDE提供了一些高级功能，以用于支持Django框架下的专业Web开发。功能比较强大。

其实用记事本打开也是可以的，但是作为拥有强迫症的我来说，我喜欢能代码换行能自动空位，能提示，能语法高亮。看着好区分一些。

1.整体代码

先把所有的代码给大家，代码里面有较为详细的注释，大家可以直接复制使用：

import xml.etree.ElementTree as ET    #给包xml.etree.ElementTree 定义一个 ET 别名  操作XML文件的包
import pickle                         #pickle 模块 将某个对象所对应位置的数据抓取下来，转换成文本流，然后将文本流存入到文件中。
import os                             #os 模块 提供了非常丰富的方法用来处理文件和目录。
from os import listdir, getcwd        #从os包中引入 listdir, getcwd 类  
from os.path import join              #从 os包中的path类中引入 join 方法  

sets=[('2018', 'VOC')]

classes = ["zuoyuting"]               #训练的类别，只有一个“zuoyuting”

#-----------------------函数定义开始------------------
def convert(size, box): #
    dw = 1./size[0]
    dh = 1./size[1]
    x = (box[0] + box[1])/2.0
    y = (box[2] + box[3])/2.0
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x*dw
    w = w*dw
    y = y*dh
    h = h*dh
    return (x,y,w,h)

def convert_annotation(year, image_id):
    in_file = open('Annotations/%s.xml'%(image_id), encoding='UTF-8')
    out_file = open('labels/%s.txt'%(image_id), 'w', encoding='UTF-8')
    """
        ‘w’打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。
    """
    #从xml文件中获取图片标注的宽与高
    tree=ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)

    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in classes or int(difficult) == 1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))
        bb = convert((w,h), b)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')
        
#-----------------------函数定义结束------------------

        
wd = getcwd()    # os.getcwd() 方法用于返回当前工作目录。

for year, image_set in sets:
    if not os.path.exists('labels/'):              
        os.makedirs('labels/')                     
        """
            # os.path.exists() 用于判断变量、文件等是否存在。 如果labels文件夹不存在，创建一个文件夹
            # os.makedirs() 方法用于递归创建目录。
        """

    image_ids = open('ImageSets/Main/train.txt', encoding='UTF-8').read().strip().split()  #获取数字，以便取图片
    """
            # read() 方法用于从文件读取指定的字节数，如果未给定或为负则读取所有。
            # strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。
            # split() 通过指定分隔符对字符串进行切片，如果参数 num 有指定值，则仅分隔 num 个子字符串
    """
    list_file = open('%s.txt'%(image_set), 'w', encoding='UTF-8')
            
    for image_id in image_ids:
        list_file.write('%s/JPEGImages/%s.jpg\n'%(wd, image_id))
        convert_annotation(year, image_id)
    list_file.close()

如果没有学习过Python的话，看这段会比较困难，接下来我会简单分块讲解一下。如果大家能看懂这段可以跳过。

2.代码分段简介

首先是引入的一些包：

import xml.etree.ElementTree as ET    #给包xml.etree.ElementTree 定义一个 ET 别名  操作XML文件的包
import pickle                         #pickle 模块 将某个对象所对应位置的数据抓取下来，转换成文本流，然后将文本流存入到文件中。
import os                             #os 模块 提供了非常丰富的方法用来处理文件和目录。
from os import listdir, getcwd        #从os包中引入 listdir, getcwd 类  
from os.path import join              #从 os包中的path类中引入 join 方法

关于包的相关概念，大家可以点击查看：import介绍。

一般来说，包是在你写代码的时候逐步完善的，用到哪一个就写哪一个，在这里，为了方便大家理解，在最前面会给大家统一列出了。

sets=[('2018', 'VOC')]
classes = ["shuiyixin"]               #训练的类别，只有一个“shuiyixin”

这两个都是定义的数组，一个是为了方便一会调用文件，另一个是定义训练的类别，大家在图像标注的时候，用的是哪个就直接写哪个就行，当然大家可能训练多个类。用数组方式分别写好即可。在这里，小编就用“shuiyixin”代替啦。

然后就是定义两个函数，Python是没有括号的，区分包含关系用的是缩进的不同，所以Python和C++等其他编程语言是不同的，它是不能随便乱缩进的，好处就是可以让代码规范化，坏处就是，一旦写错一个缩进，就有可能导致出严重错误。代码写多了还不好排错。

#-----------------------函数定义开始------------------
def convert(size, box): #
    dw = 1./size[0]
    dh = 1./size[1]
    x = (box[0] + box[1])/2.0
    y = (box[2] + box[3])/2.0
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x*dw
    w = w*dw
    y = y*dh
    h = h*dh
    return (x,y,w,h)

def convert_annotation(year, image_id):
    in_file = open('Annotations/%s.xml'%(image_id), encoding='UTF-8')
    out_file = open('labels/%s.txt'%(image_id), 'w', encoding='UTF-8')
    """
        ‘w’打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。
    """
    #从xml文件中获取图片标注的宽与高
    tree=ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)

    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in classes or int(difficult) == 1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))
        bb = convert((w,h), b)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')
        
#-----------------------函数定义结束------------------

这一整体的代码是将图像标注的XML文件信息返回到图片上去，所以需要操作XML文件，将XML信息提取出来，这是第二个函数要做的工作，想要理解第一个函数，就需要打开一个XML文件来一探究竟了。大家主要看两个部分，一个是size，另一个是bndbox。

所以第一个函数就是处理XML文件的数据的，只有经过第一个函数处理以后的数据，才能最后转回到原图。

在下面就是主要部分了，上面定义的函数是为了让代码能够分块，可读性更强。下面就是将XML文件的信息保存到图片上。用到的相关API注释里面都有详细介绍。

for year, image_set in sets:
    if not os.path.exists('labels/'):              
        os.makedirs('labels/')                     
        """
            # os.path.exists() 用于判断变量、文件等是否存在。 如果labels文件夹不存在，创建一个文件夹
            # os.makedirs() 方法用于递归创建目录。
        """

    image_ids = open('ImageSets/Main/train.txt', encoding='UTF-8').read().strip().split()  #获取数字，以便取图片
    """
            # read() 方法用于从文件读取指定的字节数，如果未给定或为负则读取所有。
            # strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。
            # split() 通过指定分隔符对字符串进行切片，如果参数 num 有指定值，则仅分隔 num 个子字符串
    """
    list_file = open('%s.txt'%(image_set), 'w', encoding='UTF-8')
            
    for image_id in image_ids:
        list_file.write('%s/JPEGImages/%s.jpg\n'%(wd, image_id))
        convert_annotation(year, image_id)
    list_file.close()

了解完上述代码以后就可以编译运行了，图片预处理完成。

2、训练

1.代码调用流程

首先说一下训练中代码调用流程，训练过程中，运行一个cmd文件，cmd文件中包括：

1.要运行的程序“Darknet.exe 或 Darknet_no_gpu.exe ”；

2.训练用的数据文件：voc.data。

3.YOLO用于训练的cfg文件；

4.darknet19_448.conv.23：darknet19_448.conv.23是使用 Imagenet 数据集进行预训练的卷积权重。（官网现在更新为：darknet53.conv.74。）

调用darknet.exe运行开始训练，训练需要的相关数据会从数据文件中获取，训练时候的相关配置与权重，分别是cfg文件和darknet19_448.conv.23。

相关文件的下载在前面提供链接，大家可以下载使用。下载完成后，有部分内容要做修改。

2.Darknet编译运行

Darknet有两个版本，一个是针对没有GPU的用户，一个是针对有NVIDIA显卡的用户。在前面配置完VS2015以后，找到darknet.sln 或者 Darknet_no_gpu.sln编译运行，注意一定要按照上面的配置配置变量，配置出错，编译会有各种各样错误。

3.数据文件修改

打开文件修改classes，训练了几个值，就是几。

train是要用来训练的文件，转向的是VOC.txt文件，文件中保存的是图片的存储位置，VOC.txt文件内容如下：

names是训练类别的名称，名称文件、VOC.txt 和数据文件在同一文件夹下。

backup存放的是训练好的权重文件，所以在这里backup是一个文件夹。

4.cfg配置文件配置

这个要注意，一方面，cfg文件有很多，选定一个，后续所有操作都用这一个。另一方面，cfg文件需要修改内容比较多，而且不要改错位置。

我选用的是 yolov2-tiny.cfg 。修改的内容是以下几个方面：

首先是将下面没有注释的Batch改为64，subdivisions修改为8。这个就在配置文件最上面。

然后到最下面，修改classes的值，训练了几个值，就是几。然后就是修改filters，按照下面的公式。

5.创建训练文件

新建一个命令脚本文件，命名为train_voc2018，后缀名为cmd。

右键-编辑，修改内容为如下内容：

darknet_no_gpu.exe detector train VOC2018/voc.data yolov2-tiny.cfg darknet19_448.conv.23
pause

保存，然后双击运行。等待它训练即可。然后就可以在backup文件夹下看到训练出来的数据集。我训练到6000时用了6.5小时。可想这个等待是真的等待。

不过我们可以让他先训练，我们再找一台电脑开始测试。相关内容请看 YOLO初体验。有详细的代码及原理介绍。

我们将其中的cfg文件和权重文件修改成我们训练用的cfg文件和自己训练好的权重文件（尽量选择文件名数大的，准确度更高）。

三、测试

测试图如下：（比较丑，不要介意）

水亦心

关注

15
点赞
踩
86

收藏

觉得还不错? 一键收藏
24
评论
【YOLO学习笔记——数据集】之一YOLO数据集制作2

目录说在前面的话一、准备工作1、硬件设备2、工具二、数据集训练1、图片预处理2、训练三、测试说在前面的话小编要考研，所以博客可能更新较慢，希望大家理解。但是写博客要坚持，每个月最少四篇吧。这段时间会以考研为主，因为要涉及到毕业论文，所以很多博客是和我的毕业设计有关系。感谢每一个支持我，点击我博客观看的人，你们也是我坚持写博客的动力，我希望能把我知道的内容一起...
复制链接

扫一扫

专栏目录