CV入门天池零基础入门赛事-笔记

1.赛题

零基础入门CV赛事- 街景字符编码识别

链接:https://tianchi.aliyun.com/competition/entrance/531795/information

1.1.数据

赛题源自Google街景图像中的门牌号数据(The Street View House Numbers Dataset, SVHN),根据一定方式采样得到比赛数据集,该数据来自真实场景的门牌号。训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;测试集A包括4W张照片,测试集B包括4W张照片。

所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。

FieldDescription
top左上角坐标X
height字符高度
left左上角最表Y
width字符宽度
label字符编码

1.2.评测标准

评价标准为准确率,选手提交结果与实际图片的编码进行对比,以编码整体识别准确率为评价指标,结果越大越好,具体计算公式如下:score = 编码识别正确得数量/测试集图片数量

2.Baseline思路

2.1赛题数据读取(封装为Pytorch的Dataset和DataLoder)

2.2构建CNN模型(使用Pytorch构建)

2.3模型训练与验证

2.4模型结果预测

3.解题

3.1.运行环境安装

本地安装:

1.进入 Anaconda Prompt 后,输入:conda install pytorch-cpu -c pytorch,安装pytorch

2.接着,输入 pip3 install torchvision, 安装 torchvisioin

相关链接:

https://blog.csdn.net/wuzhiwuweisun/article/details/82689151?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

阿里云:直接使用PAI进行,相关环境已搭建完毕,直接使用即可

3.2.读取数据

3.2.1.首先读取相关包

import os, sys, glob, shutil, json 
os.environ["CUDA_VISIBLE_DEVICES"] = '0' 
import cv2
from PIL import Image 
import numpy as np
from tqdm import tqdm, tqdm_notebook
import torch 
torch.manual_seed(0) 
torch.backends.cudnn.deterministic = False 
torch.backends.cudnn.benchmark = True
import torchvision.models as models 
import torchvision.transforms as transforms 
import torchvision.datasets as datasets 
import torch.nn as nn 
import torch.nn.functional as F 
import torch.optim as optim 
from torch.autograd import Variable 
from torch.utils.data.dataset import Dataset

3.2.2.数据集读取

未完待续ing

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值