Datawhale CV组队学习打卡-02

最新推荐文章于 2024-07-12 22:38:25 发布

Hang_Q

最新推荐文章于 2024-07-12 22:38:25 发布

阅读量212

点赞数

分类专栏： Datawhale打卡活动文章标签： pytorch

本文链接：https://blog.csdn.net/QH0695/article/details/106280729

版权

Datawhale打卡活动专栏收录该内容

5 篇文章 0 订阅

订阅专栏

内容：数据读取与数据扩增

学习Python和Pytorch中图像读取
学会扩增方法和Pytorch读取赛题数据

（一）基础图像读取

在Python中有很多库可以完成数据读取的操作，比较常见的有Pillow和OpenCV。

Pillow是Python图像处理函式库(PIL）的一个分支。Pillow提供了常见的图像读取和处理的操作，而且可以与ipython notebook无缝集成，是应用比较广泛的库。

from PIL import Image  # 导入Pillow库

# 读取图片

im =Image.open('*****.jpg')

OpenCV是一个跨平台的计算机视觉库，最早由Intel开源得来。OpenCV发展的非常早，拥有众多的计算机视觉、数字图像处理和机器视觉等功能。OpenCV在功能上比Pillow更加强大很多。

import cv2   # 导入Opencv库

img = cv2.imread('****.jpg')


img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # Opencv默认颜色通道顺序是BRG，转换通道

（二）数据扩增

现有深度学习的参数非常多，一般的模型可训练的参数量基本上都是万到百万级别，而训练集样本的数量很难有这么多，容易造成过拟合。数据扩增可以增加训练集的样本，同时也可以有效缓解模型过拟合的情况，也可以给模型带来的更强的泛化能力。

数据扩增方法有很多，常见的数据扩增方法中，一般会从图像颜色、尺寸、形态、空间和像素等角度进行变换，不同的数据扩增方法可以自由进行组合。根据不同任务，数据扩增都有相应的区别。

对于图像分类，数据扩增一般不改变标签；对于物体检测，数据扩增会改变物体坐标位置；对于图像分割，数据扩增会改变像素标签。

以torchvision为例，常见的数据扩增方法包括：

transforms.CenterCrop 对图片中心进行裁剪
transforms.ColorJitter 对图像颜色的对比度、饱和度和零度进行变换
transforms.FiveCrop 对图像四个角和中心进行裁剪得到五分图像
transforms.Grayscale 对图像进行灰度变换
transforms.Pad 使用固定值进行像素填充
transforms.RandomAffine 随机仿射变换
transforms.RandomCrop 随机区域裁剪
transforms.RandomHorizontalFlip 随机水平翻转
transforms.RandomRotation 随机旋转
transforms.RandomVerticalFlip 随机垂直翻转

常用的数据扩增库

torchvision

https://github.com/pytorch/vision
pytorch官方提供的数据扩增库，提供了基本的数据数据扩增方法，可以无缝与torch进行集成；但数据扩增方法种类较少，且速度中等；

imgaug

https://github.com/aleju/imgaug
imgaug是常用的第三方数据扩增库，提供了多样的数据扩增方法，且组合起来非常方便，速度较快；

albumentations

https://albumentations.readthedocs.io
是常用的第三方数据扩增库，提供了多样的数据扩增方法，对图像分类、语义分割、物体检测和关键点检测都支持，速度较快。

（三）pytorch读取数据

在Pytorch中数据是通过Dataset进行封装，并通过DataLoder进行并行读取。所以我们只需要重载一下数据读取的逻辑就可以完成数据的读取。

Dataset：对数据集的封装，提供索引方式的对数据样本进行读取
DataLoder：对Dataset进行封装，提供批量读取的迭代读取

定义数据集和读取数据的代码段如下，包括简要注释：

import os, sys, glob, shutil, json
import cv2

from PIL import Image
import numpy as np

import torch
from torch.utils.data.dataset import Dataset
import torchvision.transforms as transforms

class SVHNDataset(Dataset):
    def __init__(self, img_path, img_label, transform=None):
        self.img_path = img_path
        self.img_label = img_label 
        if transform is not None:
            self.transform = transform
        else:
            self.transform = None

    def __getitem__(self, index):
        img = Image.open(self.img_path[index]).convert('RGB')

        if self.transform is not None:
            img = self.transform(img)
        
        # 原始SVHN中类别10为数字0
        # 设置最⻓的字符⻓度为5个

        lbl = np.array(self.img_label[index], dtype=np.int)
        lbl = list(lbl)  + (5 - len(lbl)) * [10]
        
        return img, torch.from_numpy(np.array(lbl[:5]))

    def __len__(self):
        return len(self.img_path)

train_path = glob.glob('../input/train/*.png')
train_path.sort()
train_json = json.load(open('../input/train.json'))
train_label = [train_json[x]['label'] for x in train_json]

train_loader = torch.utils.data.DataLoader(
        SVHNDataset(train_path, train_label,
                   transforms.Compose([
                       #尺寸缩放
                       transforms.Resize((64, 128)),
                       #颜色空间变换
                       transforms.ColorJitter(0.3, 0.3, 0.2),
                       #随机旋转
                       transforms.RandomRotation(5),
                       #数据转为张量
                       transforms.ToTensor(),
                       #像素归一化操作，数据预处理
                       transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
            ])), 
    batch_size=10, # 每批样本个数
    shuffle=False, # 是否打乱顺序
    num_workers=4, # 读取的线程个数
)

for data in train_loader:
    break

Hang_Q

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Datawhale CV组队学习打卡-02

内容：数据读取与数据扩增学习Python和Pytorch中图像读取学会扩增方法和Pytorch读取赛题数据（一）基础图像读取在Python中有很多库可以完成数据读取的操作，比较常见的有Pillow和OpenCV。Pillow是Python图像处理函式库(PIL）的一个分支。Pillow提供了常见的图像读取和处理的操作，而且可以与ipython notebook无缝集成，是应用比较广泛的库。from PIL import Image # 导入Pillow库# 读取图片i.
复制链接

扫一扫