Datawhale 零基础⼊⻔CV赛事-Task1 赛题理解
本章内容将会对街景字符识别赛题进⾏赛题背景讲解,对赛题数据的读取进⾏说明,并给出集中解题思路。
1 赛题理解
1.1 学习⽬标
- List item 理解赛题背景和赛题数据
完 - List item 成赛题报名和数据下载,理解赛题的解题思路
1.2 赛题数据
赛题以街道字符为为赛题数据,数据集报名后可⻅并可下载,该数据来⾃收集的SVHN街道字符,并进⾏了匿名采样处理。
1.3 数据标签
原始图片:
图片JSON标注:
1.4评测指标
选⼿提交结果与实际图⽚的编码进⾏对⽐,以编码整体识别准确率为评价指标。任何⼀个字符错误都为错误,最终评测指标结果越 ⼤越好,具体计算公式如下:
Score=编码识别正确的数量/测试集图⽚数量
1.5读取数据
import json train_json = json.load(open('../input/train.json'))
# def parse_json(d):
数据标注处理
arr = np.array([ d['top'], d['height'], d['left'], ]) arr = arr.astype(int) return arr
d['width'], d['label']
img = cv2.imread('../input/train/000000.png') arr = parse_json(train_json['000000.png'])
plt.figure(figsize=(10, 10)) plt.subplot(1, arr.shape[1]+1, 1) plt.imshow(img) plt.xticks([]); plt.yticks([])
for idx in range(arr.shape[1]):
plt.subplot(1, arr.shape[1]+1, idx+2) plt.imshow(img[arr[0, idx]:arr[0, idx]+arr[1, idx],arr[2, idx]:arr[2, idx]+arr[3, idx]]) plt.title(arr[4, idx]) plt.xticks([]); plt.yticks([])
1.6解题思路
赛题思路分析:赛题本质是分类问题,需要对图⽚的字符进⾏识别。但赛题给定的数据图⽚中不同图⽚中包含的字符数量不等,如 下图所示。有的图⽚的字符个数为2,有的图⽚字符个数为3,有的图⽚字符个数为4。
因此本次赛题的难点是需要对不定⻓的字符进⾏识别,与传统的图像分类任务有所不同。为了降低参赛难度,我们提供了⼀些解题思路供大家参考:
-
List item 简单⼊⻔思路:定⻓字符识别
可以将赛题抽象为⼀个定⻓字符识别问题,在赛题数据集中⼤部分图像中字符个数为2-4个,最多的字符 个数为6个。 因此可以对于所有的图像都抽象为6个字符的识别问题,字符23填充为23XXXX,字符231填充为231XXX。 -
List item 专业字符识别思路:不定⻓字符识别
在字符识别研究中,有特定的⽅法来解决此种不定⻓的字符识别问题,⽐较典型的有CRNN字符识别模型。在本次赛题中的给定的图像数据都比较规整,可以视为一个单词和句子。 -
List item 专业分类思路:检测再识别
在赛题数据中已经给出了训练集、验证集中所有图⽚中字符的位置,因此可以⾸先将字符的位置进⾏识别,利⽤物体检测的思路完成。
此种思路需要参赛选⼿构建字符检测模型,对测试集中的字符进⾏识别。选⼿可以参考物体检测模型SSD或者YOLO来完成。