cv入门（街景字符编码）task2

最新推荐文章于 2024-07-18 00:00:00 发布

石岩鑫(ZiSee)

最新推荐文章于 2024-07-18 00:00:00 发布

阅读量142

点赞数

文章标签：机器学习计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_42217220/article/details/106302153

版权

数据读取

在python中有许多库可以完成图像数据读取操作，比较常见的是pillow和OpenCV。

1.1 Pillow

Pillow是python图像处理函式库（PIL）的一个分支。Pillow提供了常见图片读取和处理操作，而且可以与ipython notebook无缝集成，是应用比较广泛的库。
如：from.PIL import Image
#读取图片 img=Image.open(graph.jpg)
from PIL import Image, ImageFilter
im = Image.open(‘cat.jpg’)
#应用模糊滤镜
im2=im.filter(ImageFilter.BLUR)
im2.save(‘blur.jpg’, ‘jpeg’)
from PIL import Image
im = Image.open(‘cat.jpg’) im.thumbnail((w//2, h//2)) im.save(‘thumbnail.jpg’, ‘jpeg’)
关于Pillow的官方文档：Pillow链接

1.2 OpenCV

OpenCV是一个跨平台的计算机视觉库，最早是由Intel开源得来。OpenCV发展比较早，拥有众多的计算机视觉，数字图像处理和集权视觉等功能。OpenCV在功能上比Pillow更加强大，学习成本也高很多。
代码演示：
import cv2 #导入库
img = cv2.imread(‘cat.jpg’) #读取图片
#默认通道是BRG
img =cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
#转换灰度图
img=cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
#边缘检测
edges=cv2.Canny(img,30,70)cv2.imwrite(‘canny.jpg’, edges)
OpenCV包含了众多的图像处理功能，也有许多图像相关操作，内置还有图像特征处理算法，关键点检测，边缘检测，和直线检测登等。
opencv官网
 opencv github
opencv扩展算法库

2. 数据扩增方法

在深度学习中数据扩增非常重要，数据扩增可以增加训练集的样本，同时也可以缓解模型过拟合的情况，也可以给模型带来的更强范化能力。
数据扩增为什么有用呢？
在深度学习模型的训练过程中，数据扩增是必不可少的环节，现有深度学习的参数非常多，一般的模型可训练数量基本上都是万到百万级别，而训练样本的数量很难有这么多。
其次是数据扩增可以扩展样本空间，假设现有的分类模型需要对汽车图片进行分类，如果不使用任何数据扩增的方法，深度学习模型会从汽车车头来进行判断，而不是汽车具体区别。
有哪些数据扩增方法呢？
数据扩增的方法有很多：从颜色空间，尺度空间到样本空间，同时根据不同任务数据扩增都有相应的区别。对于图像分类，数据扩增一般不会改变标签，对于物体检测，数据扩增会改变物体坐标位置，对于图像分割，数据扩增会改变像素标签。
数据扩增常用方法：一般从图像颜色，尺寸，形态，空间和像素等角度进行变换，当然不同的数据扩增方法可以自由进行组合，得到更加峰度的数据扩增方法。以torchvision为例，常见的数据扩增方法包括：

1. transforms.CenterCrop 对图片中心进行裁剪
1. transforms.ColorJitter 对图像颜色的对比度，饱和度和零度进行变换
1. transforms.FiveCrop 对图像四个角和中心进行裁剪得到五分图像
1. transforms.Grayscale对图像进行灰度变换
1. transforms.Pad使用固定值进行像素填充
1. transforms.RandomAffine随机仿射变换
1. transforms.RandomCrop 随机区域裁剪
1. transforms.RandomHorizontalFlip 随机水平翻转
1. transforms.RandomRotation 随机旋转
1. transforms.RandomVerticalFlip 随机垂直翻转
  但是这里应该注意的是：数字的旋转有问题，比如6旋转变成9，会改变字符的意义。
  常见数据扩增库
  torchvision
  albumentations
  imgaug

pytoch读取数据

本次赛题我们用pytorch框架实现具体方案，在pytorch中数据通过Dataset进行封装，并通过DataLoader进行读取。

import os,sys,glob,shutil,json
import cv2

from PIL import Image
import numpy as np
from torch.utils.data.dataset import Dataset
import torchvision.transforms as transforms

class SVHNDataset(Dataset):
    def __init__(self, img_path, img_label, transform=None):
        self.img_path = img_path
        self.img_label = img_label
        if transform is not None:
            self.transform = transform
        else:
            self.transform = None
    def __getitem__(self, index):
        img = Image.open(self.img_path[index]).convert('RGB')
        if self.transform is not None:
            img = self.transform(img)
            # 原始SVHN中类别10为数字0
        lbl = np.array(self.img_label[index], dtype=np.int)
        lbl = list(lbl) + (5 - len(lbl)) * [10]
        return img, torch.from_numpy(np.array(lbl[:5]))
    def __len__(self):
        return len(self.img_path)

train_path=glob.glob(r"F:\opencv+机器视觉\input\train\*.png")
train_path.sort()
train_json=json.load(open(r"F:\opencv+机器视觉\input\mchar_train.json"))
train_label=[train_json[x]['label'] for x in train_json]

data = SVHNDataset(train_path,train_label,
                transforms.Compose([
                    #缩放到固定尺寸
                    transforms.Resize((64,128)),
                    # 随机颜⾊色变换
                    transforms.ColorJitter(0.3, 0.3, 0.2),
                    # 加⼊入随机旋转
                    transforms.RandomRotation(5),
                    # 将图⽚片转换为pytorch 的tesntor
                    transforms.ToTensor(),
                    # 对图像像素进⾏行行归⼀一化
                    transforms.Normalize([0.485,0.456,0.406],[0.229,0.224,0.225])
                ]))

接下来我们将定义好的Dataset基础上构建DataLoader,你可能会问有了Dataset为什么还要DataLoader?其实这2个是不同概念，是为了实现不同功能。
1.Dataset:对数据集的封装，提供索引方式的对数据样本进行读数。
2.DataLoader:对dataset进行封装，提供批量读取的迭代读取：
加载DataLoader后，数据读取代码如下：

class SVHNDataset(Dataset):
    def __init__(self, img_path, img_label, transform=None):
        self.img_path = img_path
        self.img_label = img_label
        if transform is not None:
            self.transform = transform
        else:
            self.transform = None
    def __getitem__(self, index):
        img = Image.open(self.img_path[index]).convert('RGB')
        if self.transform is not None:
            img = self.transform(img)
            # 原始SVHN中类别10为数字0
        lbl = np.array(self.img_label[index], dtype=np.int)
        lbl = list(lbl) + (5 - len(lbl)) * [10]
        return img, torch.from_numpy(np.array(lbl[:5]))
    def __len__(self):
        return len(self.img_path)

train_path=glob.glob(r"F:\opencv+机器视觉\input\train\*.png")
train_path.sort()
train_json=json.load(open(r"F:\opencv+机器视觉\input\mchar_train.json"))
train_label=[train_json[x]['label'] for x in train_json]

train_loader=torch.utils.data.DataLoader(
    SVHNDataset(train_path,train_label,
                transforms.Compose([
                    #缩放到固定尺寸
                    transforms.Resize((64,128)),
                    # 随机颜⾊色变换
                    transforms.ColorJitter(0.3, 0.3, 0.2),
                    # 加⼊入随机旋转
                    transforms.RandomRotation(5),
                    # 将图⽚片转换为pytorch 的tesntor
                    transforms.ToTensor(),
                    # 对图像像素进⾏行行归⼀一化
                    transforms.Normalize([0.485,0.456,0.406],[0.229,0.224,0.225])
                ])),
    batch_size=10,#每批样本个数
    shuffle=False,#是否打乱顺序
    num_workers=0,#读取数据线程个数
)
for data in train_loader:
    break

石岩鑫(ZiSee)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
cv入门（街景字符编码）task2

数据读取在python中有许多库可以完成图像数据读取操作，比较常见的是pillow和OpenCV。1.1 PillowPillow是python图像处理函式库（PIL）的一个分支。Pillow提供了常见图片读取和处理操作，而且可以与ipython notebook无缝集成，是应用比较广泛的库。如：from.PIL import Image#读取图片 img=Image.open(graph.jpg)from PIL import Image, ImageFilterim = Image.ope
复制链接

扫一扫