04 Dataset类代码实战

文章介绍了如何创建一个名为MyData的类,继承自Python的Dataset类,通过os工具包导入图片地址和标签,定义__getitem__,__init__和__len__方法以处理数据集。示例展示了如何使用类结构加载图片和存储标签信息。
摘要由CSDN通过智能技术生成

创建一个类MyData,这个类继承自Dataset类,并创建一个初始化函数,相当于C++中的构造函数。

class MyData(Dataset):

	det __init__(self):

	def __getitem__(self, idx):

然后定义一个getitem函数,idx相当于索引。

为了获取图片地址的列表,我们需要使用os工具包,在最前面加上

import os

然后就可以在初始化函数中通过图片路径和标签路径来对图片列表进行导入了,主要导入为类中的全局变量,类似于C++中的属性(self.后面)

def __init__(self, root_dir, label_dir):

	self.root_dir = root_dir
	self.label_dir = label_dir
	self.path = os.path.join(self.root_dir, self.label_dir)
	self.img_path = os.listdir(self.path) //获取图片地址列表

这样就可以在getitem函数中通过idx索引获取具体某一张图片的信息

def __getitem__(self, idx):
	img_name = self.img_path[idx]
	img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
	img = Image.open(img_item_path)
	label = self.label_dir
	
	return img, label

最后定义一个len函数,用于获取数据长度

def __len__(self):
	return len(self.img_path)

我们可以尝试获取图片信息

root_dir = "dataset/train"  
ants_label_dir = "ants"  
bees_label_dir = "bees"  
ants_dataset = MyData(root_dir, ants_label_dir)  
bees_dataset = MyData(root_dir, bees_label_dir)

也可以将两个数据集拼接在一起,此时新数据集的长度为两个数据集的长度和

train_dataset = ants_dataset + bees_dataset

需要注意的是,这种图片获取方式针对的是图片的标签直接用文件夹命名的情况
在这里插入图片描述

但现实中我们更多的会将标签用一个文档存储起来一一对应,比如这样

在这里插入图片描述

此时label文件夹中的文档保存的就是相应图片的标签,文档名等于相应图片名

在这里插入图片描述
在这里插入图片描述

我们可以用如下代码将标签存入文档中

import os  
  
root_dir = "dataset/train"  
  
target_dir  = "ants_image"  
  
img_path = os.listdir(os.path.join(root_dir, target_dir))  
label = target_dir.split('_')[0]  
out_dir = "ants_label"  
for i in img_path:  
    file_name = i.split('.jpg')[0]  
    with open(os.path.join(root_dir, out_dir, "{}.txt".format(file_name)), 'w') as f:  
        f.write(label)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值