零基础入门CV赛事—街景字符编码识别—task1赛题理解

最新推荐文章于 2020-05-30 22:58:20 发布

Libaididi

最新推荐文章于 2020-05-30 22:58:20 发布

阅读量789

点赞数 3

分类专栏： faster rcnn

本文链接：https://blog.csdn.net/Libaididi/article/details/106185983

版权

本文介绍了零基础入门CV赛事—街景字符编码识别，详细讲解了数据集来源、数据标签、评测标准，并提供了标签数据读取方法。文章探讨了三种解题思路：定长字符识别、不定长字符识别以及检测再识别，旨在帮助参赛者掌握计算机视觉中的字符识别问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

街景字符编码识别

零基础入门CV赛事- 街景字符编码识别是Datawhale联合天池举办的CV入门学习赛，赛题以计算机视觉中字符识别为背景，要求选手预测真实场景下的字符识别，这是一个典型的字符识别问题。通过这道赛题可以引导大家走入计算机视觉的世界，主要针对竞赛选手上手视觉赛题，提高对数据建模能力。

赛题来源自Google街景图像中的门牌号数据集（The Street View House Numbers Dataset, SVHN），并根据一定方式采样得到比赛数据集。

**数据集展示**
训练集数据包括3W张照片，验证集数据包括1W张照片，每张照片包括颜色图像和对应的编码类别和具体位置；为了保证比赛的公平性，测试集A包括4W张照片，测试集B包括4W张照片。

对于训练数据每张图片将给出对于的编码标签，和具体的字符框的位置（训练集、测试集和验证集都给出字符位置），可用于模型训练：

用[top,left]和[height,width]两组坐标就可以在图片中具体表示字符的位置和大小了。

评价标准为准确率，选手提交结果与实际图片的编码进行对比，以编码整体识别准确率为评价指标，结果越大越好，具体计算公式如下：
$score=\frac{编码识别正确的数量}{测试集图片数量} $