Datawhale 零基础⼊⻔CV赛事-Task1 赛题理解

Datawhale 零基础⼊⻔CV赛事-Task1 赛题理解

本章内容将会对街景字符识别赛题进⾏赛题背景讲解,对赛题数据的读取进⾏说明,并给出集中解题思路。
1 赛题理解

1.1 学习⽬标

  • List item 理解赛题背景和赛题数据
  • List item 成赛题报名和数据下载,理解赛题的解题思路
    1.2 赛题数据
    赛题以街道字符为为赛题数据,数据集报名后可⻅并可下载,该数据来⾃收集的SVHN街道字符,并进⾏了匿名采样处理。
    在这里插入图片描述
1.3 数据标签

在这里插入图片描述
原始图片:
在这里插入图片描述
图片JSON标注:
在这里插入图片描述

1.4评测指标
选⼿提交结果与实际图⽚的编码进⾏对⽐,以编码整体识别准确率为评价指标。任何⼀个字符错误都为错误,最终评测指标结果越 ⼤越好,具体计算公式如下:
 Score=编码识别正确的数量/测试集图⽚数量
1.5读取数据
import json train_json = json.load(open('../input/train.json'))

# def parse_json(d):

数据标注处理

arr = np.array([ d['top'], d['height'], d['left'], ]) arr = arr.astype(int) return arr

d['width'], d['label']

img = cv2.imread('../input/train/000000.png') arr = parse_json(train_json['000000.png'])

plt.figure(figsize=(10, 10)) plt.subplot(1, arr.shape[1]+1, 1) plt.imshow(img) plt.xticks([]); plt.yticks([])

for idx in range(arr.shape[1]):

plt.subplot(1, arr.shape[1]+1, idx+2) plt.imshow(img[arr[0, idx]:arr[0, idx]+arr[1, idx],arr[2, idx]:arr[2, idx]+arr[3, idx]]) plt.title(arr[4, idx]) plt.xticks([]); plt.yticks([])
1.6解题思路
赛题思路分析:赛题本质是分类问题,需要对图⽚的字符进⾏识别。但赛题给定的数据图⽚中不同图⽚中包含的字符数量不等,如 下图所示。有的图⽚的字符个数为2,有的图⽚字符个数为3,有的图⽚字符个数为4。
因此本次赛题的难点是需要对不定⻓的字符进⾏识别,与传统的图像分类任务有所不同。为了降低参赛难度,我们提供了⼀些解题思路供大家参考:
  • List item 简单⼊⻔思路:定⻓字符识别
    可以将赛题抽象为⼀个定⻓字符识别问题,在赛题数据集中⼤部分图像中字符个数为2-4个,最多的字符 个数为6个。 因此可以对于所有的图像都抽象为6个字符的识别问题,字符23填充为23XXXX,字符231填充为231XXX。

  • List item 专业字符识别思路:不定⻓字符识别
    在字符识别研究中,有特定的⽅法来解决此种不定⻓的字符识别问题,⽐较典型的有CRNN字符识别模型。在本次赛题中的给定的图像数据都比较规整,可以视为一个单词和句子。

  • List item 专业分类思路:检测再识别
    在赛题数据中已经给出了训练集、验证集中所有图⽚中字符的位置,因此可以⾸先将字符的位置进⾏识别,利⽤物体检测的思路完成。
    在这里插入图片描述
    此种思路需要参赛选⼿构建字符检测模型,对测试集中的字符进⾏识别。选⼿可以参考物体检测模型SSD或者YOLO来完成。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值