在windows下使用YOLOv8旋转目标检测算法跑自己的数据集

MBL1234

已于 2024-04-18 16:04:46 修改

阅读量207

点赞数 1

分类专栏：旋转目标检测文章标签：目标检测 windows yolov8 YOLO 人工智能算法

于 2023-12-27 16:05:52 首次发布

本文链接：https://blog.csdn.net/m0_48248371/article/details/135236524

版权

旋转目标检测专栏收录该内容

1 篇文章 0 订阅

订阅专栏

首先本人参考了以下链接，并使用了相关代码进行记录整合

参考一

1.早茶和猫博客链接：

Yolov8_obb（prob loss) 基于anchor_free的旋转框目标检测，剪枝，跟踪（ByteTracker）_yolov8 obb-CSDN博客

2.早茶和猫代码链接：

GitHub - yzqxy/Yolov8_obb_Prune_Track

参考二

1.Glenn Jocher代码链接：

ultralytics/ultralytics at obb (github.com)

2.ultralytics官方文件代码链接：

Home - Ultralytics YOLOv8 Docs

本人代码链接：

1.根据早茶和猫部分改动后代码：

2.根据Glenn Jocher部分改动后代码：

一.数据集部分

1.官方数据集

(1).DOTA 系列链接：

https://github.com/ultralytics/yolov5/releases/download/v1.0/DOTAv2.zip

2.制作自己的数据集

(1).X-Anylabeling

X-Anylabeling代码链接:CVHub520/X-AnyLabeling: Effortless data labeling with AI support from Segment Anything and other awesome models. (github.com)

X-Anylabeling博客链接:

(2).Rolabelimg

Rolabelimg代码链接：

cgvict/roLabelImg: Label Rotated Rect On Images for training (github.com)

Rolabelimg博客链接：

【roLabelImg】windows下旋转框标注软件安装、使用、rolabelimg打包成exe_rolabelimg怎么安装-CSDN博客

(3）两种标注格式转换代码

首先两种标注形式本人生成的都是XML文件，感觉在YOLO系列算法上比较方便

X-Anylabeling标注是八点式，即旋转框的四个点的x,y坐标

Rolabeling标注是五点式，即旋转框的中心x,y坐标、旋转框的长度和宽度、旋转角度

五点式XML文件转换为八点式XML文件在转换为YOLO可以训练的txt格式：

此处码的训练验证和测试，如果只是训练该模型则数据转换到此为止

# 文件名称   ：roxml_to_dota.py
# 功能描述   ：把rolabelimg标注的xml文件转换成dota能识别的xml文件，
#             再转换成dota格式的txt文件
#            把旋转框 cx,cy,w,h,angle，或者矩形框cx,cy,w,h,转换成四点坐标x1,y1,x2,y2,x3,y3,x4,y4
import os
import xml.etree.ElementTree as ET
import math

cls_list=['你的类别']
def edit_xml(xml_file, dotaxml_file):
    """
    修改xml文件
    :param xml_file:xml文件的路径
    :return:
    """
    tree = ET.parse(xml_file)
    objs = tree.findall('object')
    for ix, obj in enumerate(objs):
        x0 = ET.Element("x0")  # 创建节点
        y0 = ET.Element("y0")
        x1 = ET.Element("x1")
        y1 = ET.Element("y1")
        x2 = ET.Element("x2")
        y2 = ET.Element("y2")
        x3 = ET.Element("x3")
        y3 = ET.Element("y3")
        # obj_type = obj.find('bndbox')
        # type = obj_type.text
        # print(xml_file)

        if (obj.find('robndbox') == None):
            obj_bnd = obj.find('bndbox')
            obj_xmin = obj_bnd.find('xmin')
            obj_ymin = obj_bnd.find('ymin')
            obj_xmax = obj_bnd.find('xmax')
            obj_ymax = obj_bnd.find('ymax')
            #以防有负值坐标
            xmin = max(float(obj_xmin.text),0)
            ymin = max(float(obj_ymin.text),0)
            xmax = max(float(obj_xmax.text),0)
            ymax = max(float(obj_ymax.text),0)
            obj_bnd.remove(obj_xmin)  # 删除节点
            obj_bnd.remove(obj_ymin)
            obj_bnd.remove(obj_xmax)
            obj_bnd.remove(obj_ymax)
            x0.text = str(xmin)
            y0.text = str(ymax)
            x1.text = str(xmax)
            y1.text = str(ymax)
            x2.text = str(xmax)
            y2.text = str(ymin)
            x3.text = str(xmin)
            y3.text = str(ymin)
        else:
            obj_bnd = obj.find('robndbox')
            obj_bnd.tag = 'bndbox'  # 修改节点名
            obj_cx = obj_bnd.find('cx')
            obj_cy = obj_bnd.find('cy')
            obj_w = obj_bnd.find('w')
            obj_h = obj_bnd.find('h')
            obj_angle = obj_bnd.find('angle')
            cx = float(obj_cx.text)
            cy = float(obj_cy.text)
            w = float(obj_w.text)
            h = float(obj_h.text)
            angle = float(obj_angle.text)
            obj_bnd.remove(obj_cx)  # 删除节点
            obj_bnd.remove(obj_cy)
            obj_bnd.remove(obj_w)
            obj_bnd.remove(obj_h)
            obj_bnd.remove(obj_angle)

            x0.text, y0.text = rotatePoint(cx, cy, cx - w / 2, cy - h / 2, -angle)
            x1.text, y1.text = rotatePoint(cx, cy, cx + w / 2, cy - h / 2, -angle)
            x2.text, y2.text = rotatePoint(cx, cy, cx + w / 2, cy + h / 2, -angle)
            x3.text, y3.text = rotatePoint(cx, cy, cx - w / 2, cy + h / 2, -angle)


        # obj.remove(obj_type)  # 删除节点
        obj_bnd.append(x0)  # 新增节点
        obj_bnd.append(y0)
        obj_bnd.append(x1)
        obj_bnd.append(y1)
        obj_bnd.append(x2)
        obj_bnd.append(y2)
        obj_bnd.append(x3)
        obj_bnd.append(y3)

        tree.write(dotaxml_file, method='xml', encoding='utf-8')  # 更新xml文件


# 转换成四点坐标
def rotatePoint(xc, yc, xp, yp, theta):
    xoff = xp - xc;
    yoff = yp - yc;
    cosTheta = math.cos(theta)
    sinTheta = math.sin(theta)
    pResx = cosTheta * xoff + sinTheta * yoff
    pResy = - sinTheta * xoff + cosTheta * yoff
    return str(int(xc + pResx)), str(int(yc + pResy))


def totxt(xml_path, out_path):
    # 想要生成的txt文件保存的路径，这里可以自己修改

    files = os.listdir(xml_path)
    i=0
    for file in files:

        tree = ET.parse(xml_path + os.sep + file)
        root = tree.getroot()

        name = file.split('.')[0]

        output = out_path +'\\'+name + '.txt'
        file = open(output, 'w')
        i=i+1
        objs = tree.findall('object')
        for obj in objs:
            cls = obj.find('name').text
            box = obj.find('bndbox')
            x0 = int(float(box.find('x0').text))
            y0 = int(float(box.find('y0').text))
            x1 = int(float(box.find('x1').text))
            y1 = int(float(box.find('y1').text))
            x2 = int(float(box.find('x2').text))
            y2 = int(float(box.find('y2').text))
            x3 = int(float(box.find('x3').text))
            y3 = int(float(box.find('y3').text))
            if x0<0:
                x0=0
            if x1<0:
                x1=0
            if x2<0:
                x2=0
            if x3<0:
                x3=0
            if y0<0:
                y0=0
            if y1<0:
                y1=0
            if y2<0:
                y2=0
            if y3<0:
                y3=0
            for cls_index,cls_name in enumerate(cls_list):
                if cls==cls_name:
                    file.write("{} {} {} {} {} {} {} {} {} {}\n".format(x0, y0, x1, y1, x2, y2, x3, y3, cls,cls_index))
        file.close()
        # print(output)
        print(i)

if __name__ == '__main__':
    # -----**** 第一步：把xml文件统一转换成旋转框的xml文件 ****-----
    roxml_path = r" 已标注并需要转换的xml文件"  
    dotaxml_path = r'存储dota格式的xml文件的输出路径'  #
    out_path = r'存储data格式yolov5_obb可训练的txt文件的路径'   
    filelist = os.listdir(roxml_path)
    for file in filelist:
        edit_xml(os.path.join(roxml_path, file), os.path.join(dotaxml_path, file))

    # -----**** 第二步：把旋转框xml文件转换成txt格式 ****-----
    totxt(dotaxml_path, out_path)

数据存放格式：

你的数据存放格式
dataset
	--images
		--train
		--val
		--test
	--labelTxt
		--trian
		--val
		--test
	--dataset.yaml #内部存放数据路径、类别名和类别数

将上一步八点式txt数据格式进一步进行归一化转换

此处的数据集转换主要用于Glenn Jocker的代码训练，此处需要下载链接处的代码，然后新建如下所示.py文件

此处如果使用官方数据集，也需要按照此处代码进行转换，如果按照本人给出的链接进行下载，则文件夹中包含已经转换成功的数据集直接进行训练就好

此处如果使用自己的数据集，其中如果是png格式则直接进行训练就好，如果使用的是png以外的其他数据格式，则需要将：

ultralytics.data.coverter中的convert_data_to_yolo_obb处的class_mapping改为自己的数据类别名

同时将以下代码进行注释

# if image_path.suffix != '.png':
#     continue

# 数据转换
from ultralytics.data.converter import convert_dota_to_yolo_obb
convert_dota_to_yolo_obb("dataset")

3.环境准备

两个代码首先都需要按照要求进行：

pip install -r requirements.txt

早茶的猫代码之后需要执行

cd utils/nms_rotated
python setup.py develop

此处会报错，需要将utils\nms_rotated\src\poly_nms_cuda.cu中部分代码进行修改，如下所示

#源码
#define maxn 10
const double eps=1E-8;

__device__ inline int sig(float d){
    return(d>eps)-(d<-eps);
 }

#修改代码
#define maxn 10
// const double eps=1E-8;

__device__ inline int sig(float d){
    return(d>0.00000001)-(d<-0.00000001);

之后再执行

python setup.py develop

Glenn Jocker的代码环境安装直接pip就行不会由太大问题，如果YOLOv8能跑则YOLOv8_obb也可以跑

4.代码训练

按照上述要求修改数据集和环境之后，再新建.py文件进行训练、验证、测试就行，代码如图所示：

早茶和猫系列：

修改tain,val,detect处的数据参数进行训练就行

#训练
python train.py --data DOTAv2/dataset.yaml --hyp data/hyps/obb/hyp.finetune_dota.yaml --cfg models/yaml/yolov8x.yaml   --epochs 5   --batch-size 4   --img 640   --device 0

python train.py --data dataset/dataset.yaml --hyp data/hyps/obb/hyp.finetune_dota.yaml --cfg models/yaml/yolov8x.yaml   --epochs 500   --batch-size 8   --img 640   --device 0

#测试
python detect.py --weights runs/train/exp/weights/best.pt --source dataset/images/val --img 640 --device 0 --conf-thres 0.25 --iou-thres 0.2

#测试--自动标注
#测试图片并保存对应xml文件
python detect_save_xml.py --save-xml --xml_save_path_dir runs/detect/xml --weights runs/train/exp/weights/best.pt --source dataset/images/val/   --img 640 --device 0 --conf-thres 0.25 --iou-thres 0.2

此处代码用于进行测试图像的xml文件保存，保存结果为五点式xml

#测试图片并保存对应xml文件
python detcet_save_xml.py --save-xml --xml_save_path_dir your_xml_save_path/  --weights  runs/train/exp/weights/best.pt   --source dataset/your datafile/images/val/   --img 640 --device 0 --conf-thres 0.25 --iou-thres 0.2

Glenn Jocker系列：

训练、验证、测试新建文件夹如下：

# 训练
from ultralytics import YOLO
if __name__ == "__main__":
    model = YOLO("yolov8x-obb.yaml")
    model.train(data="dataset/dataset.yaml", epochs=500, imgsz=640, batch=4, workers=4, device=0)


# # 验证
 from ultralytics import YOLO
 if __name__ == "__main__":
   model=Y O LO("J:/MBLL/apple_diameter/rorectangle/yolov8/ultralyticsob-b/runs/obb/train/weights/best.pt")  
   model.val(data="dataset/dataset.yaml")


 # 测试
 from ultralytics import YOLO
 if __name__ == "__main__":
     model = YOLO("J:/MBLL/apple_diameter/rorectangle/yolov8/ultralytics-obb/runs/obb/train/weights/best.pt")
     model.predict(source="dataset/images/val", save=True, save_txt=True)


 # 数据转换
 from ultralytics.data.converter import convert_dota_to_yolo_obb
 convert_dota_to_yolo_obb("dataset")


 # JPG转PNG
 from PIL import Image # 导入Pillow库中的Image模块
 import os # 导入os模块
 # 定义需要转换的文件夹路径
 folder_path = "J:/MBLL/apple_diameter/rorectangle/yolov8/ultralytics-obb/DOTAv1/images/val/"
 # 遍历文件夹中的所有文件
 for filename in os.listdir(folder_path):
     if filename.endswith(".jpg"): # 判断文件是否以.JPG结尾
         # 打开原始图像文件
         img = Image.open(folder_path + filename)
         # 拼接输出文件路径和文件名
         new_filename = os.path.splitext(filename)[0] + ".png"
         new_filepath = os.path.join(folder_path, new_filename)
         # 保存为PNG格式
         img.save(new_filepath, "PNG")
         # 关闭图像文件
         img.close()