零基础入门CV之街道字符识别-Task01赛题理解

一、赛事介绍

本期学习是Datawhale联合天池举报的零基础睡CV赛事,是系列学习(数据挖掘、CV、NLP、机器学习、深度学习、推荐系统)的第二场,本次学习以计算机视觉竞赛项目为实践,将会对数据读取、数据扩增、字符识别模型、模型训练、模型验证及模型集成展开学习。

二、赛题理解

(一)赛题数据

赛题来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到比赛数据集。由于赛题来自公开数据集,故降低了赛事难度,可供选择的paper较多。

数据集报名后可见并可下载,该数据来自真实场景的门牌号。训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。

(二)数据示例

数据样例

(三)字段表

所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。

FieldDescription
top左上角坐标X
height字符高度
left左上角最表Y
width字符宽度
label字符编码

三、评测标准

选手提交结果与实际图片的编码进行对比,以编码整体识别准确率为评价指标。任何一个字符错误都为错误,最终评测指标结果越大越好,具体计算公式如下:

S c o r e = 编 码 识 别 正 确 的 数 量 测 试 集 图 片 数 量 Score=\frac{编码识别正确的数量}{测试集图片数量} Score=

四、解题思路

赛题本质是分类问题,难点是需要对不定长的字符进行识别,与传统的图像分类任务有所不同,思路有如下几种。

(一)抽象为定向字符识别

可以将赛题抽象为一个定长字符识别问题;本赛题数据集中大部分图像中字符个数为2-4个,最多字符个数为6个。因此可以将问题都抽象为6个字符的识别问题。经过填充之后,原始的赛题可以简化了6个字符的分类问题。在每个字符的分类中会进行11个类别的分类,假如分类为填充字符,则表明该字符为空。

(二) 利用CRNN字符识别模型

字符识别研究中,有特定的方法来解决此种不定长的字符识别问题,典型的有CRNN字符识别模型。该模型主要用于解决基于图像的序列识别问题,特别是这种场景文字识别问题。

CRNN的主要特点是:

(1)可以进行端到端的训练;

(2)不需要对样本数据进行字符分割,可识别任意长度的文本序列。

(3)模型速度快、性能好,并且模型很小(参数少)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值