CV之街景字符编码识别----基于pytorch的数据读取与扩充

最新推荐文章于 2022-04-28 20:08:13 发布

卡小葵

最新推荐文章于 2022-04-28 20:08:13 发布

阅读量270

点赞数

分类专栏：图像视觉 pytorch 深度学习文章标签： python

本文链接：https://blog.csdn.net/kaxiaokui/article/details/106301861

版权

本文介绍了基于PyTorch的街景字符编码识别，重点在于数据读取和扩充。讲解了使用Pillow和OpenCV进行简单数据读取，利用torchvision进行数据扩充，如CenterCrop、ColorJitter等。此外，文章还讨论了基于pytorch的神经网络基本框架，包括Dataloader、网络定义、损失函数和优化器的设定。最后，阐述了Dataset和DataLoader在PyTorch数据处理中的作用，以及如何自定义Dataset子类来读取和扩增数据。

摘要由CSDN通过智能技术生成

文章目录

项目来源： https://tianchi.aliyun.com/competition/entrance/531795/information
task参考： github链接
本task主要是学习如何使用pytorch进行数据读取与扩充。
常见的对图像数据的读取我们可以采用pillow和opencv库来进行。

一、简单数据读取

pillow读取与保存：

im=Image.open("cat.jpg")
im.save("cat.jpg",jpg)

opencv读取：

img=cv2.imread('cat.jpg')
cv2.imwrite('cat.jpg',jpg)

二、基于pytorch的数据扩充

数据扩增的好处：
1.增加训练样本
2.缓解模型过拟合
3.提高模型的泛化能力

基于torchvision，常见的数据扩增的方法：

对图像中心进行剪裁：transforms.CenterCrop
对图像颜色的对比度，饱和度和零度进行变换：transforms.ColorJitter
对图像四个角和中心进行剪裁得到五分图像：transforms.FiveCrop
对图像进行灰度变换：transforms.Grayscale
对图像使用固定值进行像素填充：transforms.Pad
对图像进行随机仿射变换：transforms.RandomAffine
对图像进行随机区域剪裁:transforms.RandomCorp
对图像进行随机水平翻转:transforms.RndomHorizontalFlip
对图像进行随机旋转:transforms.RndomRotation
对图像进行随机垂直翻转:RandomVerticalFlip

常见的数据扩增库：
torchvision
imgaug
albumentations

三、基于pytorch的神经网络的基本框架

import torch as t
import torchvision as tv
import torchvision.transforms as transforms
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim