关于YOLO8学习(二)数据集收集,处理

本文介绍了如何为YOLO8训练准备数据集,包括从Kaggle和Open Images Dataset V7获取数据,以及数据转换的详细步骤。讲解了数据下载、标注文件格式、数据转换和验证的方法,提供了相关脚本代码。
摘要由CSDN通过智能技术生成

在这里插入图片描述

前文

关于YOLO8学习(一)环境搭建,官方检测模型部署到手机

简介

本文将会讲解:
(1)如何通过三方网站,获取可用于训练的数据源
(2)通过三方网址,选择合适的手机,通过手动标注,转换为可用于训练的数据源

开发环境

win10、python 3.11、cmake、pytorch2.0.1+cu117、pycharm、ultralytics==8.0.134
要特别注意,不要升级到python312,目前onnx还没支持到312,所以转换了,会导致转换模型失效。
对于上述环境如何配置,请看我之前的文章。

数据收集

对于数据收集,正常情况下,只有两种。
(1)使用别人已经标注好的数据进行训练
(2)自己去筛选数据,标注数据,整合数据用于训练。

注意,使用Yolo8进行训练,数据集合有很多种,但是最后,都将会是殊途同归。需要 通过转换数据,然后每个图片,都对应其独一无二的标注文件。标注文件的格式如下:
    # <class_index> <x_center> <y_center> <width> <height>
    # <class_index>:对象的类别索引(从0开始)。
    # <x_center>、<y_center>:对象边界框中心相对于图像宽度和高度的坐标(范围通常在0到1之间)。
    # <width>、<height>:对象边界框的宽度和高度相对于图像宽度和高度的比例(范围通常在0到1之间)。

具体成品文件截图如下:
在这里插入图片描述
其中,第一列,就是标签的index,0代表第一个,同样地,1代表第二个。
第二列,就是边框中心点x,相对于宽的百分比,例如有宽度为100,中心点x在50的位置,那么对应的x_center,就是0.5。
第三列和第二列的原理一致,换成y代入。
对于第四,第五列,就是边框的宽度or长度,和整个图片宽度or长度的比值。
以上第二列开始的所以值,都是0-1之间,如果出现其他情况,就是错误的。


首先讲解的是第一种情况:

三方网址有很多,这里都列出一些比较常用的数据集合三方网址,有需要可以上去进行下载,排名不分先后:
Kaggle
Open Images Dataset V7
阿里天池
百度飞浆
极市
Mars
上述就是一些比较常见的数据集合平台,通过这些平台,可以下载到相关的训练集合。

以kaggle为例子

打开其官网,然后搜索“Face Detection”(下载人脸检测数据集合),注意!!!这里一般都是英文搜索!!
选择过滤条件为large size,如下图:
在这里插入图片描述
这里就有相关的结果了。

注意!!!!

(1)明确一点,如果要模型识别比较稳定,一般都是需要比较大的数据的,不要选择那几十张,几百张的哪些数据集。一般都是5000或者10000张起步比较好。
(2)这里的结果,需要点击进入查看是否合适,而不是一股脑地下载。

博主这里选择了第二个item进入详情,进行查看,核心如下图:
在这里插入图片描述
从上面的图片中,可以看到,右侧的目录栏里面,是有三个文件夹,一个是images,一个是labels,最后一个是labels2。现在点击labels,展开看看其中一个文件的内容。
在这里插入图片描述
可以看到,这个格式,就是我们需要的标注格式了,所以就可以下载了!

点击DownLoad的黑色按钮,即可下载

至此,简单地说明了如何从网上下载已经整理好的数据集合了。这种方式,一般是推荐的,因为数据集需要的量多,如果要人手进行标注,那么工作量非常大,除非有很多labeler进行没日没夜地标注。

----------------分割线-----------------
----------------分割线-----------------
----------------分割线-----------------

接下来讲解的是第二种情况:

第二种,也有细分。
(1)通过三方网址提供的api,进行下载
(2)通过网络数据整理,进行下载
对于方法2,这里不做讲解,具体自行了解。

下面开始方式1的讲解:

以Open Images Dataset V7为例子

统一思路

(1)编写好下载的脚本文件
(2)手动选择/自动选择需要下载的文件
(3)整理下载的文件

思路就是以上三个,下面将会详细说明如何进行数据处理。一共有两种方式。

一,通过DatasetV7提供的下载脚本,进行下载

官方脚本文件链接:官方download.py文件
博主修正后具体代码如下:文件名字:downloaddateset.py

# python3
# coding=utf-8
# Copyright 2020 The Google Research Authors.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
"""Open Images image downloader.

This script downloads a subset of Open Images images, given a list of image ids.
Typical uses of this tool might be downloading images:
- That contain a certain category.
- That have been annotated with certain types of annotations (e.g. Localized
Narratives, Exhaustively annotated people, etc.)

The input file IMAGE_LIST should be a text file containing one image per line
with the format <SPLIT>/<IMAGE_ID>, where <SPLIT> is either "train", "test",
"validation", or "challenge2018"; and <IMAGE_ID> is the image ID that uniquely
identifies the image in Open Images. A sample file could be:
  train/f9e0434389a1d4dd
  train/1a007563ebc18664
  test/ea8bfd4e765304db

python downloader.py $IMAGE_LIST_FILE --download_folder=$DOWNLOAD_FOLDER --num_processes=5
python downloaddataset.py data_apple_train.txt --download_folder=fruit/apple --num_processes=5


"""

import os
import re
import sys
from concurrent import futures

import boto3
import botocore
import tqdm

BUCKET_NAME = 'open-images-dataset'
REGEX = r'(test|train|validation|challenge2018)/([a-fA-F0-9]*)'


def check_and_homogenize_one_image(image):
    split, image_id = re.match(REGEX, image).groups()
    yield split, image_id


def check_and_homogenize_image_list(image_list):
    for line_number, image in enumerate(image_list):
        try:
            yield from check_and_homogenize_one_image(image)
        except (ValueError, AttributeError):
            raise ValueError(
                f'ERROR in line {line_number} of the image list. The following image '
                f'string is not recognized: "{image}".')


def read_image_list_file(image_list_file):
    with open(image_list_file, 'r') as f:
        for line in f:
            yield line.strip().replace('.jpg', '')


def download_one_image(bucket, split, image_id, download_folder):
    try:
        target_path = os.path.join(download_folder, split)
        bucket.download_file(f'{split}/{image_id}.jpg',
                             os.path.join(target_path, f'{image_id}.jpg'))
    except botocore.exceptions.ClientError as exception:
        sys.exit(
            f'ERROR when downloading image `{split}/{image_id}`: {str(exception)}')


def download_all_images(args):
    """Downloads all images specified in the input file."""
    bucket = boto3.resource(
        's3', config=botocore.config.Config(
            signature_version=botocore.UNSIGNED)).Bucket(BUCKET_NAME)

    download_folder = args['download_folder'] or os.getcwd()

    if not os.path.exists(download_folder):
        os.makedirs(download_folder)

    try:
        image_list = list(check_and_homogenize_image_list(read_image_list_file(args['image_list'])))
    except ValueError as exception:
        sys.exit(exception)

    # 创建目录
    for dta in image_list:
        if not os.path.exists(os.path.join(download_folder, dta[0])):
            os.makedirs(os.path.join(download_folder, dta[0]))
    progress_bar = tqdm.tqdm(total=len(image_list), desc='Downloading images', leave=True)
    if len(image_list) == 0:
        sys.exit('No images to download.')
    with futures.ThreadPoolExecutor(max_workers=args['num_processes']) as executor:
        all_futures = [
            executor.submit(download_one_image, bucket, split, image_id,
                            download_folder) for (split, image_id) in image_list
        ]
        for future in futures.as_completed(all_futures):
            future.result()
            progress_bar.update(1)
    progress_bar.close()


def start(file_name: str, download_folder: str, num_processes: int):
    download_all_images({
        'image_list': file_name,
        'num_processes': num_processes,
        'download_folder': download_folder
    })


# python downloaddataset.py datalist/data_apple_train.txt --download_folder=fruit/apple --num_processes=5
if __name__ == '__main__':
    start("datalist/data_apple_train.txt", "fruit/apple", 5)
    # parser = argparse.ArgumentParser(
    #     description=__doc__, formatter_class=argparse.RawDescriptionHelpFormatter)
    # parser.add_argument(
    #     'image_list',
    #     type=str,
    #     default=None,
    #     help=('Filename that contains the split + image IDs of the images to '
    #           'download. Check the document'))
    # parser.add_argument(
    #     '--num_processes',
    #     type=int,
    #     default=5,
    #     help='Number of parallel processes to use (default is 5).')
    # parser.add_argument(
    #     '--download_folder',
    #     type=str,
    #     default=None,
    #     help='Folder where to download the images.')
    # download_all_images(vars(parser.parse_args()))

那么如何下载呢?博主这里新建了两个文件,一个文件名字叫做:data_apple_test.txt,一个名字叫做data_apple_train.txt。故名思意,就是训练和测试的图片资源,具体内容如下图:

训练图片

测试图片
可以看到,结构的格式,是train/xxx和test/xxx开头的,前缀好理解,后面的是什么?请看官网截图:
在这里插入图片描述
可以看到,红色头部区域中。
博主选择了"Train"的类型,就是训练的意思,而后面的Type,选择了“Detection”,就是检测的意思。选择完这两个条件以后,点击你想要下载的图片,就会有个图片信息弹窗显示,其中,有个“ID”的关键字(对应上图)。这个id就是我们要下载图片的id。

综上,你现在已经了解了下载的python脚本如何编写,下载的内容结构如何查找。那么接下来,就开始下载!

博主这里自定义了一个下载的脚本,如下图:

在这里插入图片描述

 downloaddataset.start("datalist/data_apple_train.txt", "fruit/apple", 5)

//datalist/data_apple_train.txt – 刚才定义的下载id文件路径
//fruit/apple – 下载指定的目录
//5 – 下载线程数

注意,这个方法的调用,是基于博主自己定义的下载脚本,官方的脚本暂不支持,若要实现这个方法,请复制上文中博主提供的下载脚本代码,进行整合。

下面是执行下载方法后,具体的目录数据:
在这里插入图片描述
可以看到,下载的资源,有jpg,和json文件,但是,没有txt。那怎么办?

接下来,就要对下载的数据,进行转换!!

这里先Mark一下,当前下载的数据目录,是fruit/apple/test和fruit/apple/train,如下图:
在这里插入图片描述
那么,现在正是讲解,如何进行数据转换。
我们先查看方才目录下的某个json文件代码,示例如下图:

{
  "version": "5.4.1",
  "flags": {},
  "shapes": [
    {
      "label": "redapple",
      "points": [
        [
          133.7171717171717,
          57.65151515151514
        ],
        [
          635.7373737373737,
          533.4090909090909
        ]
      ],
      "group_id": null,
      "description": "",
      "shape_type": "rectangle",
      "flags": {},
      "mask": null
    }
  ],
  "imagePath": "4a5e598715686106.jpg",
  "imageData": "",
  "imageHeight": 685,
  "imageWidth": 1024
}

抓关键字,imageWidth,imageHeight,points[],这三个参数,就是官方文件提供的标注信息,对应就是图片的宽高,标注点的x1,y1,x2,y2。可以理解为是左上角和右下角。那么有了这些数据,是不是可以通过计算,转换出我们yolo训练需要的数据?好了,下面放出转换数据的python脚本,具体代码如下:

import json
import os
import shutil
from glob import glob
from os import getcwd

import cv2
import numpy as np
from sklearn.model_selection import train_test_split

wd = getcwd()


def get_file(json_path, test):
    files = glob(json_path + "*.json")
    files = [i.replace("\\", "/").split("/")[-1].split(".json")[0] for i in files]
    if test:
        trainval_files, test_files = train_test_split(files, test_size=0.1, random_state=55)
    else:
        trainval_files = files
        test_files = []

    return trainval_files, test_files


def convert(size, box):
    dw = 1. / (size[0])
    dh = 1. / (size[1])
    x = (box[0] + box[1]) / 2.0 - 1
    y = (box[2] + box[3]) / 2.0 - 1
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x * dw
    w = w * dw
    y = y * dh
    h = h * dh
    return (x, y, w, h)


#
# print(wd)

def json_to_txt(json_path, files, txt_name, classes):
    if not os.path.exists('cache-tmp/'):
        os.makedirs('cache-tmp/')
    list_file = open('cache-tmp/%s.txt' % (txt_name), 'w')
    for json_file_ in files:
        # print(json_file_)
        json_filename = json_path + json_file_ + ".json"
        imagePath = json_path + json_file_ + ".jpg"
        list_file.write('%s/%s\n' % (wd, imagePath))
        out_file = open('%s/%s.txt' % (json_path, json_file_), 'w')
        json_file = json.load(open(json_filename, "r", encoding="utf-8"))
        height, width, channels = cv2.imread(json_path + json_file_ + ".jpg").shape
        for multi in json_file["shapes"]:
            points = np.array(multi["points"])
            xmin = min(points[:, 0]) if min(points[:, 0]) > 0 else 0
            xmax = max(points[:, 0]) if max(points[:, 0]) > 0 else 0
            ymin = min(points[:, 1]) if min(points[:, 1]) > 0 else 0
            ymax = max(points[:, 1]) if max(points[:, 1]) > 0 else 0
            label = multi["label"]

            if xmax <= xmin:
                pass
            elif ymax <= ymin:
                pass
            else:
                cls_id = classes.index(label)
                # print(json_file_)
                b = (float(xmin), float(xmax), float(ymin), float(ymax))
                bb = convert((width, height), b)
                out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')
                # print(json_filename, xmin, ymin, xmax, ymax, cls_id)


def search_file_by_format(dir_path, extension):
    """
    查找指定目录及其所有子目录下具有指定扩展名的文件,并返回它们的完整路径列表。

    参数:
        dir_path (str): 目标目录路径。
        extension (str): 指定的文件扩展名,包括前导点(如 '.txt' 或 '.jpg')。

    返回:
        list[str]: 包含符合要求文件的完整路径的列表。
    """

    result = []
    for root, dirs, files in os.walk(dir_path):
        for file in files:
            if file.endswith(extension):
                file_path = os.path.join(root, file)
                result.append(file_path)
    return result


def create_path(path: str):
    if not os.path.exists(path):
        os.makedirs(path)


def copy_file_to_dir(src_path, target_dir):
    """
    复制文件 `src_path` 到指定 `target_dir`,同时保留文件元数据。
    目标文件将保持与源文件相同的名称。
    参数:
        src_path (str): 源文件的完整路径。
        target_dir (str): 目标目录的完整路径。
    """
    # 获取源文件名(包括扩展名)
    src_filename = os.path.basename(src_path)
    # 构建目标文件的完整路径(源文件名与目标目录拼接)
    dest_path = os.path.join(target_dir, src_filename)
    shutil.copy2(src_path, dest_path)


# 转换苹果
def train_data(path: str, classes_name: list):
    train_file, test_file = get_file(path, False)
    json_to_txt(path, train_file, "train", classes_name)


def copy_data(path: str, copy_path: str, cus_extra_path: str):
    jpg_file = search_file_by_format(path, ".jpg")
    json_file = search_file_by_format(path, ".json")
    txt_file = search_file_by_format(path, ".txt")
    create_path(os.path.join(copy_path, "images", cus_extra_path))
    create_path(os.path.join(copy_path, "json", cus_extra_path))
    create_path(os.path.join(copy_path, "labels", cus_extra_path))
    for i in jpg_file:
        copy_file_to_dir(i, os.path.join(copy_path, "images", cus_extra_path))
    for i in json_file:
        copy_file_to_dir(i, os.path.join(copy_path, "json", cus_extra_path))
    for i in txt_file:
        copy_file_to_dir(i, os.path.join(copy_path, "labels", cus_extra_path))
    print(f"复制完成{copy_path}")


def copy_directory(src_dir, dst_dir, overwrite=True):
    """
    复制源目录 `src_dir` 及其所有内容到目标目录 `dst_dir`。

    参数:
        src_dir (str): 源目录的完整路径。
        dst_dir (str): 目标目录的完整路径(如果不存在,将被创建)。
    """
    if not os.path.exists(dst_dir):
        os.makedirs(dst_dir)

    for item in os.listdir(src_dir):
        src_item = os.path.join(src_dir, item)
        dst_item = os.path.join(dst_dir, item)

        if os.path.isdir(src_item):
            copy_directory(src_item, dst_item, overwrite)
        else:
            if os.path.exists(dst_item) and overwrite:
                os.remove(dst_item)  # Remove existing file before copying
            shutil.copy2(src_item, dst_dir)  # Copy with metadata preservation


# 整合后的数据转换方法
def main_train_data_metha(label_list: list, train_data_list: list, test_data_list: list):
    # 复制原数据
    copy_directory(train_data_list[0], train_data_list[1])
    copy_directory(test_data_list[0], test_data_list[1])
    # 转换数据
    train_data(train_data_list[1], label_list)
    train_data(test_data_list[1], label_list)
    # 复制数据
    copy_data(train_data_list[1], train_data_list[2], train_data_list[3])
    copy_data(test_data_list[1], test_data_list[2], test_data_list[3])


if __name__ == '__main__':
    # 完整的一个数据标注后的处理流程
    # 苹果数据处理
    label_list = ["redapple"]
    train_data_list = ["fruit/apple/train/", "cache-train/apple-train/train/", "cache-result", "train"]
    test_data_list = ["fruit/apple/test/", "cache-train/apple-test/test/", "cache-result", "val"]
    main_train_data_metha(label_list, train_data_list, test_data_list)

在这里插入图片描述

执行后,可以看到,新增了三个目录,其中cache-result,就是结果目录,对应的images和labels文件夹,就是到时候Yolo需要训练的图片,还有标签目录。

那么,我们怎么知道,自己到底有没有转换出错呢?这里博主提供一个python脚本,用于校验,脚本的代码如下:

import os

import cv2


def Xmin_Xmax_Ymin_Ymax(img_path, txt_path):
    """
    :param img_path: 图片文件的路径
    :param txt_path: 标签文件的路径
    :return:
    """
    img = cv2.imread(img_path)
    # 获取图片的高宽
    h, w, _ = img.shape

    con_rect = []
    # 读取TXT文件 中的中心坐标和框大小
    with open(txt_path, "r") as fp:
        # 以空格划分
        lines = fp.readlines()
        for l in lines:
            contline = l.split(' ')

            xmin = float((contline[1])) - float(contline[3]) / 2
            xmax = float(contline[1]) + float(contline[3]) / 2
            ymin = float(contline[2]) - float(contline[4]) / 2
            ymax = float(contline[2].strip()) + float(contline[4].strip()) / 2
            xmin, xmax = w * xmin, w * xmax
            ymin, ymax = h * ymin, h * ymax

            con_rect.append((contline[0], xmin, ymin, xmax, ymax))

    return con_rect


# 根据label坐标画出目标框
def plot_tangle(img_dir, txt_dir):
    contents = os.listdir(img_dir)

    for file in contents:
        img_path = os.path.join(img_dir, file)
        img = cv2.imread(img_path)
        txt_path = os.path.join(txt_dir, (os.path.splitext(os.path.basename(file))[0] + ".txt"))

        con_rect = Xmin_Xmax_Ymin_Ymax(img_path, txt_path)

        for rect in con_rect:
            cv2.rectangle(img, (int(rect[1]), int(rect[2])), (int(rect[3]), int(rect[4])), (0, 0, 255))

        cv2.namedWindow("valwindow")
        cv2.imshow("src", img)
        cv2.waitKey()


if __name__ == "__main__":
    img_dir = "cache-result/images/train"
    txt_dir = "cache-result/labels/train"
    plot_tangle(img_dir, txt_dir)

然后指定代码,这个时候,就会有个opencv的弹窗,显示你刚才标注的结果,如下图:
在这里插入图片描述

那么,是不是标注完成了?
好了,上面就是自己下载数据的教程一。

二,通过Fifyone进行下载

下面是fity相关的依赖,链接:
使用文档
依赖安装
pip install fiftyone
pip install tensorflow torch torchvision umap-learn
pip install ‘ipywidgets>=8,<9’


完成上述步骤后,然后进行下载图片的代码编写,示例代码如下:


if __name__ == '__main__':
    dataset_test = foz.load_zoo_dataset(
        "open-images-v7",
        split="train",  # 指定下载数据集
        classes=["Lemon"],
        shuffle=True,
        max_samples=200,  # 指定下载图片数
        only_matching=True,
        label_types=["detections"],  # 指定下载目标检测的类型,detections,segmentation,relationships,classifications
        dataset_dir="E:\\workstation\\python\\resource_detected_friut_food\\OpenImg\\Cache",  # 保存的路径
        num_workers=4,  # 指定工作进程数
    )

上述代码中,可以看到,博主是指定了split='train’训练集,指定了类别为柠檬(Lemon)点击运行,即可。

接下来就是漫长的等待了,注意!!dataset_dir目录不要随意切换,这里有fiftyone的相关缓存文件!
下载完成后,目录如下:
在这里插入图片描述
对应的OpenImg大目录,就是存放了我们下载的一切。
同样的,data就是我们的柠檬数据,labels就是标签文件,metadata可以理解为是fifty的一些缓存文件,其中包含了数据集合的类别等信息。
是不是发现,如果我们要继续整理训练数据,还是差了标注文件?没错,那就要编写一些脚本,对labels目录中的csv文件,进行转化,得到我们yolo所需的标签文件!!

先放出相关转换的代码:

fiftyone_export_label.py

import csv
import os
import shutil

import cv2
import numpy as np


def create_path(path: str):
    if not os.path.exists(path):
        os.makedirs(path)


def delete_path(path: str):
    try:
        shutil.rmtree(path)
    except Exception as e:
        print("delete_path error")


def copy_path(src_dir: str, dst_dir):
    # 确保目标目录存在
    if not os.path.exists(dst_dir):
        os.makedirs(dst_dir)
    # 遍历源目录下的所有文件
    for src_file in os.listdir(src_dir):
        src_file_path = os.path.join(src_dir, src_file)
        # 只复制文件,忽略子目录
        if os.path.isfile(src_file_path):
            dst_file_path = os.path.join(dst_dir, src_file)
            shutil.copy2(src_file_path, dst_file_path)


# annotation_path = r"E:\workstation\python\resource_detected_friut_food\OpenImg\Cache\train\labels\detections_ces.csv"
# image_path = r"E:\workstation\python\resource_detected_friut_food\OpenImg\Cache\train\data"
# class_name_csv = r"E:\workstation\python\resource_detected_friut_food\OpenImg\Cache\train\metadata\classes.csv"
def train(annotation_path, image_path, class_name_csv, label_path, label_pos: int, filter_name: str):
    annotation_data = []
    with open(annotation_path, "r") as f:
        annotation_files = csv.reader(f)
        for data in annotation_files:
            annotation_data.append(data)
    images_name_list = os.listdir(image_path)
    images_path_list = [os.path.join(image_path, image_name) for image_name in images_name_list]

    classes_dict = {}
    with open(class_name_csv, "r") as f:
        annotation_files = csv.reader(f)
        for data in annotation_files:
            classes_dict[data[0]] = data[1]
    print(classes_dict)

    np.random.seed(12)
    np.random.shuffle(images_path_list)
    np.random.seed(12)
    np.random.shuffle(images_name_list)

    # <class_index> <x_center> <y_center> <width> <height>
    # <class_index>:对象的类别索引(从0开始)。
    # <x_center>、<y_center>:对象边界框中心相对于图像宽度和高度的坐标(范围通常在0到1之间)。
    # <width>、<height>:对象边界框的宽度和高度相对于图像宽度和高度的比例(范围通常在0到1之间)。

    def train_to_yolo_label(width: int, height: int, x1: float, y1: float, x2: float, y2: float):
        # 求中心点
        center_x = (x1 + (x2 - x1) / 2.0) / width
        center_y = (y1 + (y2 - y1) / 2.0) / height
        label_width = (x2 - x1) * 1.0 / width
        label_height = (y2 - y1) * 1.0 / height
        return [center_x, center_y, label_width, label_height]

    for i, image_path in enumerate(images_path_list):
        image_src = cv2.imread(image_path)
        image_name = images_name_list[i].split(".")[0]
        image_row = image_src.shape[0]
        image_col = image_src.shape[1]
        # print(f"width: {image_col}  height: {image_row}")
        # print(f"image_path: {image_path}")
        parts = image_name
        output_file_name = "".join(parts)
        # print(f"label_path: {label_path} output_file_name: {output_file_name}")
        out_file = open('%s/%s.txt' % (label_path, output_file_name), 'w')
        for image_annotation in annotation_data:
            if image_annotation[0] == image_name:
                x = float(image_annotation[4]) * image_col
                x2 = float(image_annotation[5]) * image_col
                y = float(image_annotation[6]) * image_row
                y2 = float(image_annotation[7]) * image_row
                class_name = classes_dict[image_annotation[2]]
                # print(f"x:{x} x2:{x2} y:{y} y2:{y2} class_name:{class_name} ")
                train_info = train_to_yolo_label(image_col, image_row, x, y, x2, y2)
                if class_name == filter_name:
                    train_txt = str(label_pos) + " " + " ".join([str(a) for a in train_info])
                    # print(f"train_txt:{train_txt} ")
                    out_file.write(train_txt + '\n')


# annotation_path = r"E:\workstation\python\resource_detected_friut_food\OpenImg\Cache\train\labels\detections_ces.csv"
# image_path = r"E:\workstation\python\resource_detected_friut_food\OpenImg\Cache\train\data"
# class_name_csv = r"E:\workstation\python\resource_detected_friut_food\OpenImg\Cache\train\metadata\classes.csv"

def start_train(label_csv_file: str, fifty_img_path: str, class_csv_file: str, label_pos: int, filter_name: str):
    cache_label_path = "cache-fifty-label/"
    cache_data_path = "cache-fifty-data/"
    delete_path(cache_label_path)
    delete_path(cache_data_path)
    create_path(cache_label_path)
    create_path(cache_data_path)
    # 复制数据到指定的目录
    copy_path(fifty_img_path, cache_data_path)
    train(label_csv_file, cache_data_path, class_csv_file, cache_label_path, label_pos, filter_name)
    print("finish")


if __name__ == '__main__':
    annotation_path = r"OpenImg\Cache\train\labels\detections_ces.csv"
    image_path = r"OpenImg\Cache\train\data"
    class_name_csv = r"OpenImg\Cache\train\metadata\classes.csv"
    start_train(annotation_path, image_path, class_name_csv, 0, "Apple")

fiftyone_tarin_detection.py

import csv
import os

from tqdm import tqdm

from fiftyone_export_label import start_train


# 标注文件路径
# csv_file_path = r"OpenImg\Cache\train\labels\detections.csv"
# 图像文件夹路径
# images_file_path = r"OpenImg\Cache\train\data"
# 保存标注文件路径
# data_annotation_csv = r"OpenImg\Cache\train\labels\detections_ces.csv"

# 从标注中,找出符合数据集合的标签csv文件
def inner_train(csv_file_path: str, images_file_path: str, data_annotation_csv: str):
    # 标注文件路径
    # 图像文件夹路径
    images_name = os.listdir(images_file_path)
    images_name = [x.split(".")[0] for x in images_name]
    # 保存标注文件路径
    with open(csv_file_path, 'r', encoding='utf-8') as f:
        with open(data_annotation_csv, "w", encoding='utf-8') as ff:
            csv_f = csv.reader(f)
            bar = tqdm(csv_f)
            for row in bar:
                if row[0] in images_name:
                    # print("get image {}".format(row[0]))
                    for index in range(len(row)):
                        ff.write(row[index])
                        if (index != (len(row) - 1)):
                            ff.write(",")
                    ff.write("\n")


if __name__ == '__main__':
    image_path = r"OpenImg\Cache\train\data"
    csv_file_path = r"OpenImg\Cache\train\labels\detections.csv"
    annotation_path = r"OpenImg\Cache\train\labels\detections_ces.csv"
    class_name_csv = r"OpenImg\Cache\train\metadata\classes.csv"
    inner_train(csv_file_path, image_path, annotation_path)
    start_train(annotation_path, image_path, class_name_csv, 5, "Lemon")

整理上述代码以后,直接执行fiftyone_tarin_detection.py即可。
注意:

    cache_label_path = "cache-fifty-label/"
    cache_data_path = "cache-fifty-data/"

执行完成后,就会多出这两个目录,其中data就是图片目录,lebel就是标签文件目录。同样的,执行结果是否正确,可以通过方法一中的验证脚本,进行验证。


上述就是两种自定义数据集下载的全部思路和代码,本文完毕。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
YOLO(You Only Look Once)是一种目标检测算法,它能够实时地在图像或视频中检测出多个物体的位置和类别。自己训练YOLO模型需要准备自定义的数据集,并按照一定的格式进行标注和处理。下面是使用YOLO自己训练数据集的步骤: 1. 数据集准备:首先,你需要收集一组包含你感兴趣物体的图像,并将它们分成训练集和验证集。确保图像中的物体有明确的边界框,并且每个边界框都有对应的类别标签。 2. 标注数据:使用标注工具(如LabelImg)对图像进行标注,为每个物体添加边界框和类别标签。标注完成后,将标注信息保存为YOLO格式的标签文件,每个图像对应一个标签文件。 3. 配置文件:创建一个YOLO的配置文件,其中包含模型的参数设置、数据集的路径、类别数量等信息。配置文件通常包括三个部分:模型设置、训练设置和数据设置。 4. 数据预处理:在训练之前,需要对数据进行预处理。常见的预处理操作包括图像大小调整、数据增强(如随机裁剪、旋转、翻转等)和归一化。 5. 训练模型:使用YOLO训练脚本开始训练模型。在训练过程中,模型会根据标注信息进行学习和优化,以提高检测的准确性。 6. 模型评估:训练完成后,使用验证集对模型进行评估,计算模型的精度、召回率等指标,以了解模型的性能。 7. 模型应用:训练完成的模型可以用于目标检测任务。将模型加载到YOLO框架中,输入一张图像或视频,即可实时地检测出图像中的物体位置和类别。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值