一.数据初认识
数据组织方式:
1.数据标签为数据文件名
2.数据标签为数据所在上一级文件夹名称
3.数据标签放置在txt文本中进行存储
二.Dataset类代码获取图片及标签
1.数据存储结构
2.代码示例
from torch.utils.data import Dataset
import os
from PIL import Image
class MydataSet(Dataset):
def __init__(self,root_dir,img_dir,label_dir):
self.root_dir = root_dir
self.label_dir = label_dir
self.img_dir = img_dir
self.path_label = os.path.join(self.root_dir,self.label_dir)
self.path_img = os.path.join(self.root_dir,self.img_dir)
self.label_list = os.listdir(self.path_label)
self.img_list = os.listdir(self.path_img)
def __getitem__(self, index):
item_img_name = self.img_list[index]
item_label_name = self.label_list[index]
item_img_path = os.path.join(self.root_dir,self.img_dir,item_img_name)
item_label_path = os.path.join(self.root_dir,self.label_dir,item_label_name)
item_img = Image.open(item_img_path)
item_label = open(item_label_path,'r')
label = item_label.read()
return item_img,label
def __len__(self):
return len(self.img_list)
root_dir = "practice_dataset/train"
ants_img_dir = "ants_image"
ants_label_dir = "ants_label"
bees_img_dir = "bees_image"
bees_label_dir = "bees_label"
ants = MydataSet(root_dir,ants_img_dir,ants_label_dir)
bees = MydataSet(root_dir,bees_img_dir,bees_label_dir)
注:一些说明
1.在PyTorch中,torch.utils.data.Dataset
是一个抽象类,用于表示数据集。它提供了一种统一的接口,使得我们可以自定义数据集,并且能够方便地与PyTorch的数据加载器(DataLoader)一起使用。
要使用torch.utils.data.Dataset
,您需要继承该类并实现两个主要方法:
-
__len__
方法:返回数据集的大小,即样本的数量。 -
__getitem__
方法:根据给定的索引,返回一个样本。索引可以是整数或切片对象。
2.PIL全称为python图像处理库
3.__init__函数获取相对位置根目录及文件名称放置于列表当中
__getitem__获取图片及标签
__len__获取列表长度