训练自己的数据集(二)

本文介绍了一种用于训练CNN模型的数据集处理方法,包括如何使用get_files(file_dir, ratio)函数按比例划分训练集和验证集,以及图片路径和对应的类别标签。内容涉及图片路径的组织结构和标签分配。" 91662911,8256664,C语言实现迷宫游戏设计与改进心得,"['c/c++', '游戏开发', '算法']
摘要由CSDN通过智能技术生成

主要是图片处理的几个函数

第一个get_files(file_dir, ratio): 函数,输入获取文件的路径(注意根据函数的写法,路径中包含不同类别的文件夹),验证集所占比例

# step1:返回的四个值,分别是训练集的图片路径数组,训练集图片所属类别的数组;验证集图片路径数组,验证集图片所属类别的数组
def get_files(file_dir, ratio):
    for file in os.listdir(file_dir + '/speed_detecter'):
        speed_detecter.append(file_dir + '/speed_detecter' + '/' + file)
        label_speed_detecter.append(0)

    for file in os.listdir(file_dir + '/non_speed_detecter'):
        non_speed_detecter.append(file_dir + '/non_speed_detecter' + '/' + file)
        label_non_speed_detecter.append(1)


    # step2:对生成的图片路径和标签List做打乱处理把cat和dog合起来组成一个list(img和lab)
    image_list = np.hstack((speed_detecter, non_speed_detecter))
    label_list = np.hstack((label_speed_detecter, label_non_speed_detecter))

    # 利用shuffle打乱顺序
    temp = np.array([image_list, label_list])
    temp = temp.transpose()
    np.random.shuffle(temp)

    # 从打乱的temp中再取出list(img和lab)
    # image_list = list(temp[:, 0])
    # label_list = list(temp[:, 1])
    # label_list = [int(i) for i in label_list]
    # return image_list, label_list

    # 将所有的img和lab转换成list
    all_image_list = list(temp[:, 0])
    all_label_list = list(temp[:, 1])

    # 将所得List分为两部分,一部分用来训练tra,一部分用来测试val
    # ratio是测试集的比例
    n_sample = len(all_label_list)
    n_val = int(math.ceil(n_sample * ratio))  # 测试样本数
    n_train = n_sample - n_val  # 训练样本数

    tra_images = all_image_list[0:n_train]
    tra_labels = all_label_list[0:n_train]
    tra_labels = [int(float(i)) for i in tra_labels]
    val_images = all_image_list[n_train:-1]
    val_labels = all_label_list[n_train:-1]
    val_labels = [int(float(i)) for i in val_labels]

    return tra_images, tra_labels, val_images, val_labels

调用函数中输入参数打印信息,输出结果如下:

tra_images

['E:\\CNN\\TestImage/speed_detecter/20170929112354600_28.jpg', 'E:\\CNN\\TestImage/speed_detecter/20170930070459340_8.jpg', 'E:\\CNN\\TestImage/speed_detecter/20170928124932890_10.jpg', 'E:\\CNN\\TestImage/speed_detecter/20170929094427000_10.jpg'

开源神器YOLOv5已经成为了许多科研、工业领域检测任务的首选模型,而我们经常需要基于自己的数据集进行模型训练。本文将简单介绍YOLOv5训练自己数据集的方法。 第一步:安装YOLOv5 首先需要在自己的电脑或服务器上安装YOLOv5。可以通过以下命令获取YOLOv5: ``` git clone https://github.com/ultralytics/yolov5.git cd yolov5 pip install -r requirements.txt ``` 在安装依赖库的过程中可能会出现各种问题,例如需要安装cmake、cuda等,可以参考github的一些安装教程。 第步:准备数据集 在YOLOv5中训练自己的数据集需要准备如下文件: - 图像:保存在一个文件夹中,文件夹名字可以是任意的。 - 标注文件:包含每张图像中物体的位置信息,通常使用xml格式或者txt格式。 图像和标注文件的命名需保持一致,例如: ``` folder ── 000001.jpg ── 000001.txt ── 000002.jpg ── 000002.txt ... ``` 标注文件格式如下: ``` <class_name> <x_center> <y_center> <width> <height> ``` 其中`<class_name>`是物体的标签,`<x_center> <y_center>`是物体中心点的坐标,`<width> <height>`是物体的宽度和高度。 第三步:修改配置文件 修改YOLOv5中的配置文件,包括yaml文件和python文件。首先根据要训练数据集的数量和类别数修改yaml文件,例如voc.yaml。将nc(数据集中的类别个数)修改为自己需要的数量,并在names项中添加自己的类别名称。 然后修改train.py文件,将--data参数指向yaml文件路径,将--cfg参数指向yolov5s.yaml。 第四步:训练模型 完成上述步骤后,就可以开始训练模型了,可以通过以下命令启动训练过程: ``` python train.py --img 640 --batch 16 --epochs 20 --data path/to/voc.yaml --cfg yolov5s.yaml ``` 其中的`--img`参数指定了输入图像的大小,`--batch`参数指定了批次大小,`--epochs`参数指定了训练的轮数。可以根据自己的需求进行调整。 训练模型需要一定的时间,训练过程中可以通过tensorboard观察模型的训练效果和训练过程中的损失函数变化。 第五步:测试模型 训练完模型后,可以通过以下命令进行模型测试: ``` python detect.py --source ./data/images --weights runs/train/exp/weights/best.pt --conf 0.4 ``` 其中的`--source`参数指定了测试图像的文件路径,`--weights`参数指定了模型权重文件的路径,`--conf`参数指定了置信度的阈值。 最后,通过以上几个步骤,就可以使用YOLOv5训练自己的数据集。当然,训练模型需要足够多的数据量和标注数量,以及对数据集进行一定的扩增,才能获取更好的检测效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值