Datawhale~零基础CV入门~Day01 赛题理解

本文介绍了一个CV入门级赛题,任务是识别街景图片中的数字,采用公开数据集SVHN并匿名处理。赛题评测标准为准确率,数据包括训练集、验证集和两个测试集。文章讲解了数据理解、数据读取、解题思路,建议的解题方法包括定长和不定长字符识别,以及检测再识别策略。环境配置推荐使用OpenCV和PyTorch,还分享了matplotlib的相关学习知识点。
摘要由CSDN通过智能技术生成

赛题理解:

  • 这个赛题是CV入门级赛题,通过街景字符识别来熟悉CV建模思路和竞赛流程。
  • 赛题任务:识别图片中的数字
  • 评测标准:准确率 s c o r e = 编 码 识 别 正 确 的 数 量 测 试 集 图 片 数 量 score = \frac{编码识别正确的数量}{测试集图片数量} score=
  • 结果提交:sample_submit.csv:提交结果需要保证预测结果的格式与其一致,以及提交文件后缀名为csv。

file_name, file_code
0010000.jpg,451
0010001.jpg,232
0010002.jpg,45
0010003.jpg,67
0010004.jpg,191
0010005.jpg,892

数据理解:

  • 数据获取地址
  • 赛题数据采用公开数据集SVHN,并且进行了匿名和降噪处理,减小了比赛的难度。
  • 训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。

mchar_test_a:4w张图片的测试集A
mchar_train:3w张图片的训练集
mchar_val:1w张图片的验证集
mchar_train.json:存放的是训练数据集的label数据;
mchar_val.json:存放的是验证数据集的label数据。
在这里插入图片描述

  • 可以发现有的图片中不止包含一个数字,相应的json文件中就包含了多个数字的位置信息
  • 以下是json文件中存储的内容,包含了样本集中各个图片对应的label以及位置等信息,相当于确定了图片中数字的边框,表示如下:
Field Description
top 左上角点到图片顶端的距离
height 字符高度
left 左上角点到图片左端的距离
width 字符宽度
label 字符编码
"000000.png": {
   "height": [30.0], "label": [5], "left": [43.0], "top": [7.0], "width": [19.0]}, 
"000001.png": {
   "height": [23, 23, 23], "label"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值