零基础入门天池CV赛事之——街景字符编码识别（1）

最新推荐文章于 2024-08-19 22:44:53 发布

元晦CS

最新推荐文章于 2024-08-19 22:44:53 发布

阅读量406

点赞数

分类专栏：零基础入门天池CV赛事文章标签： pytorch cv opencv anaconda

本文链接：https://blog.csdn.net/qq_41972012/article/details/106224310

版权

零基础入门天池CV赛事专栏收录该内容

5 篇文章 1 订阅

订阅专栏

一、首先配置相关环境：

1. 安装Anaconda软件

去Anaconda的官网下载Anacondahttps://www.anaconda.com/products/individual

里面有各种系统版本（本次实验在win10下进行）

安装完之后，进入Anaconda的安装目录下的Scripts，根据各自的目录，打开cmd命令行，为了避免权限问题，最好使用管理员权限打开，并查询conda的版本，使用

conda --version

显示如下：

可以看到conda 4.7.11等conda的版本编号，则说明安装成功。

2. 配置需要运行的环境以及安装示例

（1）首先在Anaconda中创建一个专门用于本次天池练习的虚拟环境。

conda create -n py37_torch131 python=3.7

（2）激活环境，并安装pytorch1.3.1

$conda install pytorch=1.3.1 torchvision cudatoolkit=10.0

3. 零基础入门CV赛事——街景字符编码识别

赛题名称：零基础入门CV赛事- 街景字符编码识别

赛题地址：https://tianchi.aliyun.com/competition/entrance/531795/information

比赛的数据，在官网，可以登录下载

（1）数据标注：

对于训练数据每张图片将给出对于的编码标签，和具体的字符框的位置（训练集，测试集和验证集都给出字符位置），可用于模型训练：

Field	Description
top	左上角坐标X
height	字符高度
left	左上角坐标Y
width	字符宽度
label	字符编码

字符的坐标具体如下所示：（关于坐标的相关知识，请参考笛卡尔坐标系）

在比赛数据中，同一张图片可能包括一个和多个字符，因此在比赛数据的JSON标注中，会有两个字符的边框信息：

（2）读取数据：

参考代码如下：

import os, sys, glob, shutil, json 
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
import cv2
from PIL import Image
import numpy as np
from tqdm import tqdm, tqdm_notebook
import torch
torch.manual_seed(0) 
torch.backends.cudnn.deterministic = False 
torch.backends.cudnn.benchmark = True
import torchvision.models as models
import torchvision.transforms as transforms 
import torchvision.datasets as datasets 
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
from torch.utils.data.dataset import Dataset

import json
train_json = json.load(open('../tianchi/mchar_train.json'))  # 根据自己的目录来修改

# 数据标注处理
def parse_json(d):
   arr = np.array([
       d['top'], d['height'], d['left'],  d['width'], d['label']
   ])
   arr = arr.astype(int)
   return arr

img = cv2.imread('../tianchi/mchar_train/000000.png')    # 根据自己的目录来修改
arr = parse_json(train_json['000000.png'])

plt.figure(figsize=(10, 10))
plt.subplot(1, arr.shape[1]+1, 1)
plt.imshow(img)
plt.xticks([]); plt.yticks([])

for idx in range(arr.shape[1]):
   plt.subplot(1, arr.shape[1]+1, idx+2)
   plt.imshow(img[arr[0, idx]:arr[0, idx]+arr[1, idx],arr[2, idx]:arr[2, idx]+arr[3, idx]])
   plt.title(arr[4, idx])
   plt.xticks([]); plt.yticks([])

例如：

（3）分析赛题

赛题思路分析：赛题本质是分类问题，需要对图片的字符进行识别。但赛题给定的数据图片中不同图片中包含的字符数量不等，如下图所示。有的图片的字符个数为2，有的图片字符个数为3，有的图片字符个数为4。

a. 简单入门思路：定长字符识别

可以将赛题抽象为一个定长字符识别问题，在赛题数据集中大部分图像中字符个数为2-4个，最多的字符个数为6个。
因此可以对于所有的图像都抽象为6个字符的识别问题，字符23填充为23XXXX，字符231填充为231XXX。

经过填充之后，原始的赛题可以简化为6个字符的分类问题。在每个字符的分类中，进行11个类别的分类，假如分类为填充字符，则表明该字符为空。

b. 专业字符识别思路：不定长字符识别

在字符识别研究中，有特定的方法来解决此种不定长的字符识别问题，比较典型的有CRNN字符识别模型。
在本次赛题中给定的图像数据都比较规整，可以视为一个单词或者一个句子。

c. 专业分类思路：检测再识别

在赛题数据中已经给出了训练集、验证集中所有图片中字符的位置，因此可以首先将字符的位置进行识别，利用物体检测的思路完成。

此种思路需要参赛选手构建字符检测模型，对测试集中的字符进行识别。选手可以参考物体检测模型SSD或者YOLO来完成。

元晦CS

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
零基础入门天池CV赛事之——街景字符编码识别（1）

一、首先配置相关环境：1. 安装Anaconda软件去Anaconda的官网下载Anacondahttps://www.anaconda.com/products/individual里面有各种系统版本（本次实验在win10下进行）安装完之后，进入Anaconda的安装目录下的Scripts，根据各自的目录，打开cmd命令行，为了避免权限问题，最好使用管理员权限打开，并查询conda的版本，使用conda --version显示如下：可以看到conda 4.7.1
复制链接

扫一扫

专栏目录