CV竞赛-Task 01数据读取与赛题入门

最新推荐文章于 2024-05-09 14:57:05 发布

一闪_酬勤

最新推荐文章于 2024-05-09 14:57:05 发布

阅读量328

点赞数

分类专栏：深度学习小白学习记录文章标签： python 计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_35191684/article/details/106163989

版权

深度学习小白学习记录专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1 赛题数据

该数据来自收集的SVHN街道字符，并进行了匿名采样处理。
本赛题需要选手识别图片中所有的字符，为了降低比赛难度，提供了训练集、验证集和测试集中所有字符的位置框。

2 数据读取

train_path = glob.glob('./input/train/*.png')
train_path.sort()
train_json = json.load(open('./input/train.json'))
train_label = [train_json[x]['label'] for x in train_json]

json.load：从fp指向的文件对象（通过open()打开）中读取数据，并转换为dict对象。
参考资料：python模块----json

glob.glob：返回所有匹配的文件路径列表，结合通配符星号（*）、问号（？）和中括号（[ ]）使用。

星号(*)——匹配零个或多个符号
问号(?)——匹配单个字符，
中括号([ ])——匹配一个指定范围的字符。

3 数据标签

字符的坐标具体如下所示：

在比赛数据（训练集、测试集和验证集）中，同一张图片中可能包括一个或者多个字符，在JSON标注中，会有两个字符的边框信息。

JSON中标签的读取方式如下：

import json
import cv2
import matplotlib.pyplot as plt

train_json = json.load(open('./input/train.json'))

# 数据标注处理
def parse_json(d):
    arr = np.array([
        d['top'], d['height'], d['left'],  d['width'], d['label']
    ])
    arr = arr.astype(int)
    return arr
    
img = cv2.imread('./input/train/000000.png')
arr = parse_json(train_json['000000.png'])
## 原图读取
plt.figure(figsize=(10, 10))
plt.subplot(1, arr.shape[1]+1, 1)
plt.imshow(img)
plt.xticks([]); plt.yticks([])
## 数据标注区域图像
for idx in range(arr.shape[1]):
    plt.subplot(1, arr.shape[1]+1, idx+2)
    plt.imshow(img[arr[0, idx]:arr[0, idx]+arr[1, idx],arr[2, idx]:arr[2, idx]+arr[3, idx]])
    plt.title(arr[4, idx])
    plt.xticks([]); plt.yticks([])

4 评测指标

选手提交结果与实际图片的编码进行对比，以编码整体识别准确率为评价指标。任何一个字符错误都为错误，最终评测指标结果越大越好，具体计算公式如下：

Score=编码识别正确的数量/测试集图片数量

5 解题思路

5.1 简单入门思路：定长字符识别

可以将赛题抽象为一个定长字符识别问题；本赛题数据集中大部分图像中字符个数为2-4个，最多字符个数为6个。因此可以将问题都抽象为6个字符的识别问题，字符23填充为23XXXX，字符231填充为231XXX。

经过填充之后，原始的赛题可以简化了6个字符的分类问题。在每个字符的分类中会进行11个类别的分类，假如分类为填充字符，则表明该字符为空。

5.2 专业字符识别思路：不定长字符识别

字符识别研究中，有特定的方法来解决此种不定长的字符识别问题，典型的有CRNN字符识别模型。
在本次赛题中给定的图像数据都比较规整，可以视为一个单词或者一个句子。

5.3 专业分类思路：检测再识别

本数据集已经给出了数据标签位置信息，比较适合用物体检测的思路完成；
参考物体检测模型SSD或者YOLO来完成

一闪_酬勤

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CV竞赛-Task 01数据读取与赛题入门

1 赛题数据该数据来自收集的SVHN街道字符，并进行了匿名采样处理。本赛题需要选手识别图片中所有的字符，为了降低比赛难度，提供了训练集、验证集和测试集中所有字符的位置框。2 数据读取train_path = glob.glob('./input/train/*.png')train_path.sort()train_json = json.load(open('./input/train.json'))train_label = [train_json[x]['label'] for x i
复制链接

扫一扫