Datawhale 零基础入门CV赛事-Task2 数据读取与数据扩增-CSDN博客

本文链接：https://blog.csdn.net/baidu_34911863/article/details/106300776

赛题名称：零基础入门CV赛事-街道字符识别（天池）
赛题地址：https://tianchi.aliyun.com/competition/entrance/531795/introduction

赛题任务：以计算机视觉中字符识别为背景，要求预测街道字符编码。赛题数据采用公开数据集SVHN，可以参考不定长字符识别的思路（crnn）。

第二阶段任务：数据读取与数据扩增

1. 目的
实现图片的数据读取与数据扩增和Pytorch读取赛题数据

2. 学习目标
学习Python中Pillow、OpenCV中图像的处理
学会扩增方法和Pytorch读取赛题数据

3.图像数据增扩技术
学习使用Pillow和OpenCV进行图像读取，学习数据扩增库torchvision；在常见的数据扩增方法中，一般会从图像颜色、尺寸、形态、空间和像素等角度进行变换。当然不同的数据扩增方法可以自由进行组合，得到更加丰富的数据扩增方法。以torchvision为例，常见的数据扩增方法包括：

'''
transforms.CenterCrop 对图片中心进行裁剪
transforms.ColorJitter 对图像颜色的对比度、饱和度和零度进行变换
transforms.FiveCrop 对图像四个角和中心进行裁剪得到五分图像
transforms.Grayscale 对图像进行灰度变换
transforms.Pad 使用固定值进行像素填充
transforms.RandomAffine 随机仿射变换
transforms.RandomCrop 随机区域裁剪
transforms.RandomHorizontalFlip 随机水平翻转
transforms.RandomRotation 随机旋转
transforms.RandomVerticalFlip 随机垂直翻转
'''

4.Pytorch读取数据
使用Pytorch进行数据读取代码：

import os, sys, glob, shutil, json
import cv2

from PIL import Image
import numpy as np

import torch
from torch.utils.data.dataset import Dataset
import torchvision.transforms as transforms

class SVHNDataset(Dataset):
    def __init__(self, img_path, img_label, transform=None):
        self.img_path = img_path
        self.img_label = img_label 
        if transform is not None:
            self.transform = transform
        else:
            self.transform = None

    def __getitem__(self, index):
        img = Image.open(self.img_path[index]).convert('RGB')

        if self.transform is not None:
            img = self.transform(img)
        
        # 原始SVHN中类别10为数字0
        lbl = np.array(self.img_label[index], dtype=np.int)
        lbl = list(lbl)  + (5 - len(lbl)) * [10]
        
        return img, torch.from_numpy(np.array(lbl[:5]))

    def __len__(self):
        return len(self.img_path)

train_path = glob.glob('../input/train/*.png')
train_path.sort()
train_json = json.load(open('../input/train.json'))
train_label = [train_json[x]['label'] for x in train_json]

data = SVHNDataset(train_path, train_label,
          transforms.Compose([
              # 缩放到固定尺寸
              transforms.Resize((64, 128)),

              # 随机颜色变换
              transforms.ColorJitter(0.2, 0.2, 0.2),

              # 加入随机旋转
              transforms.RandomRotation(5),

              # 将图片转换为pytorch 的tesntor
              # transforms.ToTensor(),

              # 对图像像素进行归一化
              # transforms.Normalize([0.485,0.456,0.406],[0.229,0.224,0.225])
            ]))