零基础入门CV之街道字符识别-Task01赛题理解_crnn 10个字符识别成11个字符-CSDN博客

本文链接：https://blog.csdn.net/qq_44980515/article/details/106243970

一、赛事介绍

本期学习是Datawhale联合天池举报的零基础睡CV赛事，是系列学习（数据挖掘、CV、NLP、机器学习、深度学习、推荐系统）的第二场，本次学习以计算机视觉竞赛项目为实践，将会对数据读取、数据扩增、字符识别模型、模型训练、模型验证及模型集成展开学习。

赛题来源自Google街景图像中的门牌号数据集（The Street View House Numbers Dataset, SVHN），并根据一定方式采样得到比赛数据集。由于赛题来自公开数据集，故降低了赛事难度，可供选择的paper较多。

数据集报名后可见并可下载，该数据来自真实场景的门牌号。训练集数据包括3W张照片，验证集数据包括1W张照片，每张照片包括颜色图像和对应的编码类别和具体位置；为了保证比赛的公平性，测试集A包括4W张照片，测试集B包括4W张照片。

数据样例

所有的数据（训练集、验证集和测试集）的标注使用JSON格式，并使用文件名进行索引。如果一个文件中包括多个字符，则使用列表将字段进行组合。

选手提交结果与实际图片的编码进行对比，以编码整体识别准确率为评价指标。任何一个字符错误都为错误，最终评测指标结果越大越好，具体计算公式如下：

$Score=\frac{编码识别正确的数量}{测试集图片数量}$

赛题本质是分类问题，难点是需要对不定长的字符进行识别，与传统的图像分类任务有所不同，思路有如下几种。

可以将赛题抽象为一个定长字符识别问题；本赛题数据集中大部分图像中字符个数为2-4个，最多字符个数为6个。因此可以将问题都抽象为6个字符的识别问题。经过填充之后，原始的赛题可以简化了6个字符的分类问题。在每个字符的分类中会进行11个类别的分类，假如分类为填充字符，则表明该字符为空。

字符识别研究中，有特定的方法来解决此种不定长的字符识别问题，典型的有CRNN字符识别模型。该模型主要用于解决基于图像的序列识别问题，特别是这种场景文字识别问题。

CRNN的主要特点是：

（1）可以进行端到端的训练；

（2）不需要对样本数据进行字符分割，可识别任意长度的文本序列。

（3）模型速度快、性能好，并且模型很小（参数少）