【PyTorch教程】制作数据集的标签(label)

关于制作数据集的label:

  • 在P7视频的最后,写了这段,用来重新命名文件的label的
  • img 和 label 的管理方法,有两种:
    1、用img所在文件夹的名称,作为label;
    2、img在一个文件夹,label在另一个文件夹,img文件夹中是图片,label文件夹中是txt文件,txt文件名跟对应img名称一致,而label,写在txt文件里面

可以运行的代码

# !usr/bin/env python3
# -*- coding:utf-8 -*-
"""
author :24nemo
 date  :2021年07月12日
"""
import os

root_dir = "TuDui/src/dataset/train"  # train: path from contend root
target_dir = "ants_image"  # ants_image: copy file name

img_path = os.listdir(os.path.join(root_dir, target_dir))
label = target_dir.split('_')[0]
out_dir = "ants_label"
for i in img_path:
    file_name = i.split('.jpg')[0]
with open(os.path.join(root_dir, target_dir, "{}.txt".format(file_name)), "w") as f:
    f.write(label)

运行后的效果

  • train 数据集中,img对应的label作为文件夹的目录存在,当前目录当中的数据内容,与文件夹名称保持一致
    在这里插入图片描述
  • 5
    点赞
  • 58
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
PyTorch中RNN模型的数据集制作相对比较简单,需要几个步骤,包括:数据预处理,构建batch数据和建立数据迭代器。 数据预处理 数据预处理是数据集制作的第一步,目的是将原始数据转化为模型可处理的格式。对于RNN模型来说,输入数据通常是时间序列数据,例如文本、时间序列信号等。我们需要将每个时刻的数据看作一个输入单元,将其转换成数字表示。对于文本数据,可以使用基于词向量的方法,将每个单词转换成其对应的词向量。对于时间序列数据,可以将每个时刻的数据转换成其对应的特征向量。 构建batch数据 一旦得到了处理好的数据集,我们需要将其分成batch数据。这样做可以提高训练效率和减少内存消耗。对于RNN模型,batch数据通常是由一系列时序数据组成的。每个时序数据对应一个标签,可以设置标签的长度,例如设置标签长度为10,每个时序数据的标签就是其后10个时刻的数据。 建立数据迭代器 最后一步是建立数据迭代器。数据迭代器是用于训练模型的重要组成部分,它可以在每次迭代时动态加载数据存入内存,这样就可以处理大规模数据集PyTorch提供了很多数据迭代器工具,如Dataset和DataLoader等。在建立数据迭代器时,我们需要设置batch大小、shuffle等参数,以及输入数据和标签的类型。 总之,PyTorch中RNN模型的数据集制作虽然需要进行一些复杂的数据处理,但是通过上述步骤进行逐步处理,能够很快生成符合模型的数据输入和标签制作好的数据集能够用于训练和评估模型。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值