街景字符识别-Task2-数据读取与数据扩增（2）

最新推荐文章于 2024-07-12 16:16:27 发布

咋是对眼

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量184

点赞数

分类专栏：计算机视觉CV 文章标签： python 计算机视觉

本文链接：https://blog.csdn.net/pandapanyueming/article/details/106302784

版权

计算机视觉CV 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

2、数据扩增

数据扩增再增加了训练集样本的同时，也可以有效地缓解过拟合的情况，使模型具有更强的泛化能力。
数据扩增的方法有很多，从颜色空间、尺度空间到样本空间，根据不同任务，数据扩增都有区别。对于图像分类，数据扩增一般不会改变标签；对于物体检测，数据扩增会改变物体坐标位置；对于图像分割，数据扩增会改变像素标签。

常见的数据扩增方法

方法	中文说明
transforms.CenterCrop	对图片中心进行裁剪
transforms.ColorJitter	对图像颜色的对比度、饱和度和零度进行变换
transforms.FiveCrop	对图像四个角和中心进行裁剪得到五分图像
transforms.Grayscale	对图像进行灰度变换
transforms.Pad	使用固定值进行像素填充
transforms.RandomAffine	随机仿射变换
transforms.RandomCrop	随机区域裁剪
transforms.RandomHorizontalFlip	随机水平翻转
transforms.RandomRotation	随机旋转
transforms.RandomVerticalFlip	随机垂直翻转

常见的数据扩增库

torchvision:https://github.com/pytorch/vision
imgaug:https://github.com/aleju/imgaug
albumentations:https://albumentations.readthedocs.io/

pytorch读取数据

因为本次赛题使用的是pytorch框架，所以第一步是使用pytorch来读取数据。
在pytorch中，数据是通过Dataset封装的，并通过DataLoader进行并行读取。
首先要区分Dataset与DataLoader。

Dataset：是对数据集的封装，提供索引方式的对数据样本进行读取
DataLoader：对Dataset进行封装，提供批量读取的迭代读取。

代码如下：

import os, sys, glob, shutil, json
import cv2

from PIL import Image
import numpy as np

import torch
from torch.utils.data.dataset import Dataset
import torchvision.transforms as transforms

class SVHNDataset(Dataset):
    def __init__(self, img_path, img_label, transform=None):
        self.img_path = img_path
        self.img_label = img_label 
        if transform is not None:
            self.transform = transform
        else:
            self.transform = None

    def __getitem__(self, index):
        img = Image.open(self.img_path[index]).convert('RGB')

        if self.transform is not None:
            img = self.transform(img)
        
        # 原始SVHN中类别10为数字0
        lbl = np.array(self.img_label[index], dtype=np.int)
        lbl = list(lbl)  + (5 - len(lbl)) * [10]
        
        return img, torch.from_numpy(np.array(lbl[:5]))

    def __len__(self):
        return len(self.img_path)

train_path = glob.glob('D:/tianchi_char/mchar_train/*.png')
train_path.sort()
train_json = json.load(open('D:/tianchi_char/mchar_train.json'))
train_label = [train_json[x]['label'] for x in train_json]

train_loader = torch.utils.data.DataLoader(
        SVHNDataset(train_path, train_label,
                   transforms.Compose([
                       transforms.Resize((64, 128)),
                       transforms.ColorJitter(0.3, 0.3, 0.2),
                       transforms.RandomRotation(5),
                       transforms.ToTensor(),
                       transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
            ])), 
    batch_size=10, # 每批样本个数
    shuffle=False, # 是否打乱顺序
    num_workers=0, # 读取的线程个数
)

for data in train_loader:
    break

这样，数据按批次获取并输入到训练模型中，此时data的格式应该为：
torch.Size([10,3,64,128]),torch.Size([10,6])
第一个为图像文件，分别为batchsizechanelheight*width；
第二个为字符的标签。

咋是对眼

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
街景字符识别-Task2-数据读取与数据扩增（2）

2、数据扩增数据扩增再增加了训练集样本的同时，也可以有效地缓解过拟合的情况，使模型具有更强的泛化能力。数据扩增的方法有很多，从颜色空间、尺度空间到样本空间，根据不同任务，数据扩增都有区别。对于图像分类，数据扩增一般不会改变标签；对于物体检测，数据扩增会改变物体坐标位置；对于图像分割，数据扩增会改变像素标签。常见的数据扩增方法方法中文说明transforms.CenterCrop对图片中心进行裁剪transforms.ColorJitter对图像颜色的对比度、饱和度和零度
复制链接

扫一扫