使用YOLOV3快速实现UAV视角的目标检测--VisDrone2019

最新推荐文章于 2025-07-03 10:00:55 发布

原创最新推荐文章于 2025-07-03 10:00:55 发布 · 1.8w 阅读

120 ·

CC 4.0 BY-SA版权

文章标签：

#YoloV3 #object detection #深度学习 #Visdrone2019

Project 专栏收录该内容

12 篇文章

订阅专栏

本文详细介绍如何使用Visdrone2018数据集进行目标检测，包括数据集下载、标签格式转换至Darknet格式、调整YoloV3算法模型并训练，最终实现实时目标检测。

部署运行你感兴趣的模型镜像

前言：

学渣的生活就是拿着各种数据集在算法上各种训练、各种玩……当然，个人觉得还是有意思的，在你有一台Bebop2无人机的情况下，结合本人前面的博客，搭建一个无人机实时目标检测平台，再配合这个检测模型，还是相对有点意思的。先看一下训练后模型的检测效果吧，无人机实时传输回来的图像在工作站上实时的检测效果(在视频上测试的，照片为截图)，你再决定是不是要看本篇博客接下来的内容。要是觉得效果不是你想要的，你就不会浪费时间了…………为什么要去掉检测框的名字，是因为有名字，整个检测的画面好难看，至于怎么去掉检测框的名字，只需要屏蔽image.c代码中

draw_label(im, top + width, left, label, rgb)

函数即可！
(视频观看链接：https://www.youtube.com/watch?v=5EITG1rbAHc&t=36s
B站：https://www.bilibili.com/video/av54517585?from=search&seid=11504153865247579114)
在这里插入图片描述

一．Visdrone2018数据集的介绍及下载

1.数据集的介绍：http://www.aiskyeye.com/views/index
2.数据下载的主页：http://www.aiskyeye.com/my/downloadD
3.在本次训练中，用到了Task1：Object Detection in Images的两部分实验数据：
Trainset(1.44GB)、Valset(0.07GB) 数据分别可通过百度云和google云下载；
4.数据下载好后解压放在同一文件夹内，以便后面的步骤使用；

二．Visdrone2018数据集标签格式转换

在该部分，实验中通过代码将Visdrone数据集标签格式转换至Darknet所需要的格式；
该部分代码，需要运行两次，放在两部分实验数据集(Train、Val)的目录下，分别运行即可；
运行后，每个文件夹里面会生成image.txt文件。(为了后面更加容易区分训练和验证的数据，在运行代码时可以修改改文件的名字，例如：train.txt、val.txt)
代码如下：（脚本参考来源于github，若有侵权，将及时删除！感谢每一位开源分享的大神！）

import os
from pathlib import Path
from PIL import Image
import csv


def convert(size, box):
    dw = 1. / size[0]
    dh = 1. / size[1]
    x = (box[0] + box[2] / 2) * dw
    y = (box[1] + box[3] / 2) * dh
    w = box[2] * dw
    h = box[3] * dh
    return (x, y, w, h)
            
wd = os.getcwd()

if not os.path.exists('labels'):
    os.makedirs('labels')


train_file = 'images.txt'  
train_file_txt = ''
    
anns = os.listdir('annotations')
for ann in anns:
    ans = ''
    outpath = wd + '/labels/' + ann
    if ann[-3:] != 'txt':
        continue
    with Image.open(wd + '/images/' + ann[:-3] + 'jpg') as Img:
        img_size = Img.size
    with open(wd + '/annotations/' + ann, newline='') as csvfile:
        spamreader = csv.reader(csvfile)
        for row in spamreader:
            if row[4] == '0':
                continue
            bb = convert(img_size, tuple(map(int, row[:4])))
            ans = ans + str(int(row[5])-1) + ' ' + ' '.join(str(a) for a in bb) + '\n'
            with open(outpath, 'w') as outfile:
                outfile.write(ans)
    train_file_txt = train_file_txt + wd + '/images/' + ann[:-3] + 'jpg\n'

with open(train_file, 'w') as outfile:
    outfile.write(train_file_txt)

三．YoloV3算法模型代码的调整以及模型的训练

1.创建visdrone.data文件(按照如下方式修改)

classes= 10
train  = /path/to/visdrone_train_dataset/images.txt
valid  = /path/to/visdrone_val_dataset/images.txt
names = data/visdrone.names
backup = backup

2.修改yolov3-voc.cfg文件
修改三处：(random参数可根据自己电脑GPU性能调整)

(第一部分)
[convolutional]
size=1
stride=1
pad=1
filters=45 ##255  f=3*(class+5)
activation=linear
[yolo]
mask = 6,7,8
achors=10,13, 16,30, 33,23, 30,61, 62, 45, 50.119, 116,90, 156,198, 373,326
classes=10 ##80
num=9
jitter=.3
ignore_thresh=.7
truth_thresh=1
random=1

(第二部分)
[convolutional]
size=1
stride=1
pad=1
filters=45 ##255  f=3*(class+5)
activation=linear
[yolo]
mask = 3,4,5
achors=10,13, 16,30, 33,23, 30,61, 62, 45, 50.119, 116,90, 156,198, 373,326
classes=10 ##80
num=9
jitter=.3
ignore_thresh=.7
truth_thresh=1
random=1

(第三部分)
[convolutional]
size=1
stride=1
pad=1
filters=45 ##255  f=3*(class+5)
activation=linear
[yolo]
mask = 0,1,2
achors=10,13, 16,30, 33,23, 30,61, 62, 45, 50.119, 116,90, 156,198, 373,326
classes=10 ##80
num=9
jitter=.3
ignore_thresh=.7
truth_thresh=1
random=1

3.修改.names文件
阅读Visdrone官方.md文件可知道共计10类目标，visdrone.names:

pedestrian
people
bicycle
car
van
truck
tricycle
awning-tricycle
bus
motor

4.模型Train起来(用的是darknet53.conv.74这个pretrain_model)

./darknet detector train cfg/visdrone.data cfg/yolov3-voc-visdrone.cfg darknet53.conv.74

注：若你有需求将txt转为xml
将visdrone数据集的txt标签装换为voc格式的xml的脚本在这篇博客上，博客底部有数据集下载的baidu网盘地址：
https://blog.csdn.net/weixin_38106878/article/details/105580678

四．总结

最终，模型在一块1060显卡上迭代了50200次，大概花费了四天左右的时间，得到了最终的模型。对了，最终的loss没有很理想的收敛下来，貌似记的是在15的样子，不知道是不是数据太复杂了，还是迭代的次数不够。要是你们能够更好的收敛，欢迎交流！！**若需要数据的可通过本人百度网盘分享！
本篇博客若有不足，请多多谅解，互相学习，互相进步～未来会做更多相关的算法的实验！（预计下一篇博客的内容：改进YOLO网络框架来实现更加高效的检测（实验已经做完，有时间就把博客写上来！））**
最后再来一张检测结果的截图！！
在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

157 条评论

tangagui 2022.03.17
先支持，

圆子hy 2022.03.10
您好，请问你训练出来的行人的AP是多少呢？

长飞哥 2021.12.03
博主请问这个摄像头分辨率是多大
- 长飞哥回复沙皮狗de忧伤 2021.12.04
  能看这么远的人？感觉有100米。如果800*600，感觉100米远人的像素都没几个
- 长飞哥回复沙皮狗de忧伤 2021.12.04
  能看这么远的人？感觉有100米。如果800*600，感觉100米远人的像素都没几个
- 沙皮狗de忧伤回复长飞哥 2021.12.03
  没记错的话应该是800*600

qq_39407831 2021.05.28
您好，可以发送一份voc转换文件么，xml，谢谢！1546584318@qq.com
- 沙皮狗de忧伤回复qq_39407831 2021.05.29
  博客下面有贴出相关的转换代码的链接可以尝试自己转换 [face]emoji:022.png[/face]

BBH~ 2021.03.26
博主您好，求发一份VisDone转换成yolo的数据集，xml, 984727543@qq.com，非常感谢！
- 沙皮狗de忧伤回复BBH~ 2021.03.26
  博客底部有数据集下载链接和数据集格式转换脚本的代码

L哲哲L 2021.03.11
您好，能给下yolo3的代码地址吗
- L哲哲L回复沙皮狗de忧伤 2021.03.17
  多谢
- 沙皮狗de忧伤回复L哲哲L 2021.03.12
  https://pjreddie.com/darknet/yolo/

Gary132 2021.02.19
作者您好，数据集链接打不开了，可以重新发一份吗？
- 沙皮狗de忧伤回复Gary132 2021.02.22
  不需要裁剪。训练过程图片输入网络时会统一resize。
- Gary132回复沙皮狗de忧伤 2021.02.22
  作者您好，visdrone数据集在训练前需要裁剪吗？需要的话一般裁成多大的呀？
- Gary132回复沙皮狗de忧伤 2021.02.20
  多谢
- 沙皮狗de忧伤回复Gary132 2021.02.20
  链接：https://pan.baidu.com/s/1eVQIkZXzcOX37YcomthPrg 提取码：MU8v