
  • 训练数据前需要对数据集进行处理,这里利用torch.utils.data下的两个类,DataLoader和Dataset
  • Dataset是封封装图像和标签,每次输出一张图像和对应的标签,[数据增强也在此实现]
  • DataLoader 指明了Dataset和batchsize shuffle 和 collate_fn



1.1 基本结构

# dataset.py
from torch.utils.data import DataLoader,Dataset

class LoadImagesAndLables(Dataset):
    def __init__(self,img_path):
    	# 从文件中读取图像 和 标签,并解析
        self.imgs = img_path
    def __len__(self):
        # 数据集大小
        return len(self.imgs)
    def __getitem__(self,index):
        # 每次根据index 返回指定的图像和标签
        return torch.from_numpy(imgs),torch.from_numpy(labels)

1.2 实现基本功能

  • 初步实现Dataset功能,获取图像,解析标签
  • 图像返回格式为RGB ,通道为CWH,并且归一化
  • 标签size= (标签数量,6) ,其中6列分别为 图像索引,类别,x,y,w,h
  • collate_fn 是DataLoader中用到的,目的是对同一个batch内的数据进行打包,图像利用torch.stack(img,0)转换成(16,3,512,512)。标签利用torch.cat(label,0)转换成(N,6),其中N 为当前batch下的所有标注数量
import torchvision.datasets
import torch
from torch.utils.data import DataLoader,Dataset
from pathlib import Path
import numpy as np
import cv2
创建Dataset子类,用来创建image 和 label

class LoadImagesAndLabels(torch.utils.data.Dataset):
    # 主要作用就是读取图像和标签 同时完成数据增强
    # v1.0  2021.12.30  by wjl
    # 1. 输入图像txt 和 标签 txt ,获取所有图像和标签
    # 2. 默认输入图像和标签大小为 512  即不用调整
    # 3. 输出图像为tensor 类型 标签shape=[box_num,6]  [[img_index,cls,x,y,w,h],[img_index,cls,x,y,w,h],...]
    def __init__(self,txt_path:str,img_size = 512):
        # 初始化一些参数
        self.img_txt_path  = txt_path
        self.imgs_path     = None
        self.labels_path   = None
        self.labels = {}   #{"img_name":[[],[]...]}

    def __len__(self):
        # 返回数据集大小
        return len(self.imgs_path)
    def __getitem__(self,index):
        # 返回当前索引下的图像和标签
        # print(index)
        img_name = self.imgs_path[index]
        # print(img_name)
        img = cv2.imread(img_name)
        img = img[:,:,::-1].transpose(2,0,1) # BGR -> RGB   WHC -> CWH
        img = img/255.0
        label = self.labels[img_name]
        label_out = torch.zeros((len(label),6)) # 增加一列 保存图片序号  与图片对应
        label_out[:,1:] = torch.from_numpy(label)
        return torch.from_numpy(img), label_out

    def get_imgs_and_labels(self):
        # 根据TXT文件,获取所有图像路径和标签
        # ===============get image path==================
        p = Path(self.img_txt_path)
        assert p.suffix == ".txt" , "image path not txt"
        with open(self.img_txt_path,'r') as f:
            self.imgs_path = f.readlines()
        self.imgs_path = [img_name.strip() for img_name in self.imgs_path]
        assert self.imgs_path ,"No image found!"
        # ===============get label =====================
        # 图像和标签在同一路径下所以转换一下图像路径的后缀即可
        self.labels_path = [lp.replace('.jpg','.txt') for lp in self.imgs_path]
        for img_name in self.imgs_path:
            label_path = img_name.replace('.jpg','.txt')
            with open(label_path,'r') as f:
                local = np.array([x.split() for x in f.read().strip().splitlines()],dtype = np.float32)
                # print(local)
            self.labels[img_name] = local
    def collate_fn(batch):
        img,label = zip(*batch)
        for i,l in enumerate(label):
            l[:,0] = i
        return torch.stack(img,0), torch.cat(label,0)

2. DataLoader

  • DataLoader是在train中用到的,每次提供batchsize大小的数据,同时利用shuffle进行图像顺序打乱。

    path = "/home/.../ImageSets/Main/train.txt"
    dataset = LoadImagesAndLabels(path)
    # print(dataset[10])
    train_loader = DataLoader(dataset = dataset,batch_size=16,shuffle=True,collate_fn=dataset.collate_fn)
    for epoch in range(2):
        for i, data in enumerate(train_loader):
            img,label = data
            print("epoch: {}, {} inputs size {} labels size {}".format(epoch,i,img.size(),label.size()))
  运行后结果
3. 训练数据

  • 利用DataLoader获取batchsize个数据后,送入网络进行推理,获得的结果与label进行损失计算,根据优化策略,反向传播梯度,更新一次weight,实现小批次的训练过程。
