天池——街景字符编码识别(一)
Task1 赛题理解
赛题数据
赛题来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到比赛数据集。
训练集:30000个
验证集:10000个
测试集:40000个
数据标签
所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。
“000000.png”: {“height”: [219, 219], “label”: [1, 9], “left”: [246, 323], “top”: [77, 81], “width”: [81, 96]}, “000001.png”: {“height”: [32, 32], “label”: [2, 3], “left”: [77, 98], “top”: [29, 25], “width”: [23, 26]},
评测指标
评价标准为准确率,选手提交结果与实际图片的编码进行对比,以编码整体识别准确率为评价指标,结果越大越好
数据读取
采用Python常用的数据处理库pandas、numpy对数据集进行读取
解题思路
属于数字识别的目标分类问题,常见的目标分类算法有VGG16、GoogleNet、ResNet。目前效果最好的是ResNet,拟采用ResNet进行目标分类