天池比赛：街景字符编码识别（T1赛题理解）

最新推荐文章于 2023-03-31 23:58:35 发布

Easofm

最新推荐文章于 2023-03-31 23:58:35 发布

阅读量543

点赞数 1

文章标签：人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014675396/article/details/106235322

版权

目录

Prerequisite
比赛简介
赛题难点
解题思路

Prerequisite

深度学习基础
耐得住今天5月20日被秀的寂寞

比赛简介

任务

主要针对新人上手计算机视觉赛事，此次比赛任务为给定图片输出字符，即文本识别。

数据集

训练集数据包括3W张照片，验证集数据包括1W张照片，每张照片包括颜色图像和对应的编码类别和具体位置；为了保证比赛的公平性，测试集A包括4W张照片，测试集B包括4W张照片。
在这里插入图片描述
出题方已经给出训练集和验证集的字符位置信息。

即是下图：
在这里插入图片描述

评价指标

$\frac{字符识别正确的图片数量}{总图片数量}$

如何获得0分

使用SVHN原始数据集进行训练。

赛题难点

赛题不同于一般的图像数字识别，其难点在于不定长的字符识别。因而如何处理不定长是本题的关键。

解题思路

定长字符识别

设字符类别数目为 $C$ ，设置一个最大字符长度 $L$ ，用卷积网络提取图像特征后，特征整合后(FC，RNN等)，最后输出一个 $C\times L$ 长度的神经元层。并用 $S o f t m a x$ 做分类。

架构图

在这里插入图片描述

举个例子

设 $C = 11$ 和 $L = 8$ ，假设有真实标签： $123$ ，有一输出：
$1\_22\_\_33$
至于有 $22, 33$ 的出现，原因在于类似于下面情况：
在这里插入图片描述
只是一个类似思考而已，和目标检测没关系

因而对于这种情况，可以通过写规则的方法解决，即是将连续重复出现的字符和空白进行删除。
但是若真实标签为 $1223$ 那么这种方法会输的很惨。

不定长字符识别

此方法可以很好的解决上述问题。
please jump: 一文读懂CRNN+CTC文字识别

男女搭配法

其实这类题，很容易就会想到先用目标检测提取字符方框，再用图像分类。并且目标检测的准确率和高效性目前都有不错的效果，比如 $Y O L O$ 等等。

至于这次比赛到底是CRNN还是OD+Clf会更胜一筹，还是会有其他算法，模型架构横空出世，咱们码场见！
在这里插入图片描述

永远要在一起哦

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
天池比赛：街景字符编码识别（T1赛题理解）

目录Prerequisite比赛简介任务数据集评价指标赛题难点解题思路定长字符识别Prerequisite深度学习基础耐得住今天5月20日被秀的寂寞比赛简介任务主要针对新人上手计算机视觉赛事，此次比赛任务为给定图片输出字符，即文本识别。数据集训练集数据包括3W张照片，验证集数据包括1W张照片，每张照片包括颜色图像和对应的编码类别和具体位置；为了保证比赛的公平性，测试集A包括4W张照片，测试集B包括4W张照片。出题方已经给出训练集和验证集的字符位置信息。即是下图：评价指标ac
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。