1.赛题
零基础入门CV赛事- 街景字符编码识别
链接:https://tianchi.aliyun.com/competition/entrance/531795/information
1.1.数据
赛题源自Google街景图像中的门牌号数据(The Street View House Numbers Dataset, SVHN),根据一定方式采样得到比赛数据集,该数据来自真实场景的门牌号。训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;测试集A包括4W张照片,测试集B包括4W张照片。
所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。
Field | Description |
---|---|
top | 左上角坐标X |
height | 字符高度 |
left | 左上角最表Y |
width | 字符宽度 |
label | 字符编码 |
1.2.评测标准
评价标准为准确率,选手提交结果与实际图片的编码进行对比,以编码整体识别准确率为评价指标,结果越大越好,具体计算公式如下:score = 编码识别正确得数量/测试集图片数量
2.Baseline思路
2.1赛题数据读取(封装为Pytorch的Dataset和DataLoder)
2.2构建CNN模型(使用Pytorch构建)
2.3模型训练与验证
2.4模型结果预测
3.解题
3.1.运行环境安装
本地安装:
1.进入 Anaconda Prompt 后,输入:conda install pytorch-cpu -c pytorch,安装pytorch
2.接着,输入 pip3 install torchvision, 安装 torchvisioin
相关链接:
阿里云:直接使用PAI进行,相关环境已搭建完毕,直接使用即可
3.2.读取数据
3.2.1.首先读取相关包
import os, sys, glob, shutil, json
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
import cv2
from PIL import Image
import numpy as np
from tqdm import tqdm, tqdm_notebook
import torch
torch.manual_seed(0)
torch.backends.cudnn.deterministic = False
torch.backends.cudnn.benchmark = True
import torchvision.models as models
import torchvision.transforms as transforms
import torchvision.datasets as datasets
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
from torch.utils.data.dataset import Dataset
3.2.2.数据集读取
未完待续ing