街景字符识别1-街景字符编码SVHN

The Street View House Numbers (SVHN) Dataset是街景字符的数据集。该数据集用于modern-day map making。街景字符转录是字符序列识别问题。针对图片序列识别问题传统思路是定位、分割、识别,现在可以采用定长字符分类识别、CRNN不定长字符识别等方法。

问题描述:

  1. 零基础入门CV赛事- 街景字符编码识别要求选手识别图片中所有的字符,为了降低比赛难度,官方提供了训练集、验证集和测试集中所有字符的位置框。
  • 训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置
  • 测试集A包括4W张照片,测试集B包括4W张照片
  • JSON标注中给出了训练数据每张图片对应的编码标签,和具体的字符框的位置(训练集、测试集和验证集都给出字符位置)。
  1. 另,图片中不仅包含字符序列,还有门框等干扰信息,为了提高准确率可根据JSON标注提供的数字框位置裁剪图片,如:
    在这里插入图片描述在这里插入图片描述
  2. 另,由于街景字符对应门牌编号,字符串序列的任意错误直接导致地图导航错误,因此街景字符识别以整体识别准确率为评价指标,整体准确率越高则模型性能越佳。
    在这里插入图片描述

解决方案:

定长字符识别之多分类解决方案

Google2014年的论文《Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks》提出了基于深度卷积神经网络的定长字符分类识别方法。
图片中的字符串序列长度不定但不超过5个字符,可以将赛题抽象为一个定长字符识别问题,待识别字符序列为LXXXXX,其中

  • 每个X的取值范围为[0,1,2,3,4,5,6,7,8,9,空字符]
  • L代表字符串非空字符长度,取值范围[0,1,2,3,4,5,’>5’]
    在这里插入图片描述定长字符识别的一种解决方案是直接对编码图片进行多分类操作(Multi-CNN):
  • 模型的输入是 128 ∗ 128 ∗ 3 128*128*3 1281283的图片,经过一系列的CNN层进行特征提取,变成了一个含有4096个特征的向量H
  • 根据这4096个特征,分别经过6个Softmax层,分别对各个字符串进行分类(分别对5个X字符进行11个类别的分类以及1个L字符进行6个类别的分类。)
  • 将6个分类loss求和训练即可。
    这种方法思路简单,模型仅包含卷积层和全连接层,模型收敛快;但这种思路是将每个字符单独进行分类的,所以没有考虑到字符与字符之间的关系【这个主要存在于相关联的words字符识别中,数字间不知道有啥关联,难道第一个字符串代表长度,与后面位数的字符串存在关联?】,在精度上有一些欠缺。

不定长字符识别解决方案

CRNN+CTC字符识别模型可以解决不定长的字符识别问题。CRNN模型包括去除全连接层的CNN提取输入图像的Convolutional feature maps,深层双向LSTM网络继续提取序列特征,最后将RNN输出做softmax后,为字符输出。后面CTC的改进看不懂【CRNN+CTC更看不懂…
CRNN

检测再识别解决方案

此种思路需要构建字符检测模型,再对字符进行识别。物体检测模型参考SSD或者YOLOFaster RCNN来完成。

参考

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
天池是一个著名的数据科学竞赛平台,而datawhale是一家致力于数据科学教育和社群建设的组织。街景字符编码识别是指通过计算机视觉技术,对街道场景中的字符进行自动识别和分类。 街景字符编码识别是一项重要的研究领域,对于提高交通安全、城市管理和智能驾驶技术都具有重要意义。街道场景中的字符包括道路标志、车牌号码、店铺招牌等。通过对这些字符进行准确的识别,可以辅助交通管理人员进行交通监管、道路规划和交通流量分析。同时,在智能驾驶领域,街景字符编码识别也是一项关键技术,可以帮助自动驾驶系统准确地识别和理解道路上的各种标志和标识,为自动驾驶提供可靠的环境感知能力。 天池和datawhale联合举办街景字符编码识别竞赛,旨在吸引全球数据科学和计算机视觉领域的优秀人才,集思广益,共同推动该领域的研究和发展。通过这个竞赛,参赛选手可以使用各种机器学习和深度学习算法,基于提供的街景字符数据集,设计和训练模型,实现准确的字符编码识别。这个竞赛不仅有助于促进算法研发和技术创新,也为各参赛选手提供了一个学习、交流和展示自己技能的平台。 总之,天池datawhale街景字符编码识别是一个具有挑战性和实际应用需求的竞赛项目,旨在推动计算机视觉和智能交通领域的技术发展,同时也为数据科学爱好者提供了一个学习和展示自己能力的机会。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值