项目介绍
此次项目为datawhale和阿里天池合作举办的cv入门赛事街道字符识别。该任务较早见于花书的作者古德费洛在12-13年在谷歌做出的研究。当时谷歌需要对极大的街景门牌号图片数据集进行数字提取以使每一个地点能在谷歌地图上有正确的门牌号信息。这样一个转码项目必然要消耗极大的人力物力,因此当时采用深度学习模型来实现自动转码,并最终取得了98%的覆盖率,大幅提高效率。
数据说明
本次项目采用谷歌公开数据集SVHM,其中测试集数据为3万张图片,验证集数据为1万张图片。
为了降低比赛的难度,对于每一张图片,都有对应的编码标签和具体的字符框的位置以用于模型的训练,具体的数据格式说明如下表所示:
Field | Description |
---|---|
top | 字符框左上角的坐标X |
height | 字符高度 |
left | 字符框左上角的坐标Y |
width | 字符框的宽度 |
label | 字符编码 |
图示如下:
因为一张图片可能包含一个或多个字符,因此在比赛数据集当中的JSON标注中,会有两个边框信息。示例图片的JSON标注如下图所示:
评价指标
项目的评测指标以字符串整体的识别率作为标准,其中任何一个字符的错误都算整体错误。score表示如下:
s c o r e = 编 码 字 符 串 识 别 正 确 的 图 片 数 量 总 图 片 数 量