YOLOV3 文本检测
windows 环境搭建 GPU版
1.CUDA9.1
2.CUDNN7.0.5
3.VS2015
安装,默认省去很多麻烦
4.openCV3.4.0
安装,参照下面附加依赖库路径,不同则修改附加依赖库
VS编译:
1.release+x64
2.opencv附加依赖库
本地opencv安装路径下的include与lib文件夹
3.编译
源码目录darknet-master\build\darknet\64下生成darknet.exe文件
yolov3 文本检测训练
1.下载ICDAR2011文本检测数据集
链接:https://pan.baidu.com/s/18EMWhKIHe2RVUx5iGZvlkA
密码:7ez9
2.解压将train-textloc目录下训练数据转化为yolo格式
train-textloc中包含了图片及text真实位置信息,首先根据gt__(img___name).txt文件生成VOC格式的XML标签文件,代码实现如下,修改路径即可
_#! /usr/bin/python _#-*-coding:utf8-*- import os, sys import glob from PIL import Image _# ICDAR 图像存储位置 src_img_dir = "train-textloc/train-textloc" _# ICDAR 图像的 ground truth 的 txt 文件存放位置 src_txt_dir = "train-textloc/train-textloc" img_Lists = glob.glob(src_img_dir + '/*.jpg') img_basenames = [] # e.g. 100.jpg for item in img_Lists: img_basenames.append(os.path.basename(ite