DataWhale-CV-task01赛题理解

1 前言

 第一次写博客,markdown编译器也不是很会用,只会使用一些结点的语法,所以博客的样式肯定做的
不是很好,希望下一次任务的时候,可以比这个写的博客进步一点。这个学习笔记主要是记录我在安装
pytorch运行环境中踩过的坑(居然忘记截图了),以及我对街景字符编码识别赛题的理解,主要是遇
到一个计算机视觉的问题,我们该如何把一个大问题,拆解成一个个小的问题,最后把这些小问题的解
决方法汇总起来,就可以解决这些比较复杂的问题。

2 赛题背景

赛题以计算机视觉中字符识别为背景, 要求选手预测真实背景下的字符识别。 我看到这个题目的时
候,我的第一想法是MINIST手写体数字识别数据集,使用CNN卷积神经网络,卷积、池化、卷积、池
化、全连接。这些都是我在理论中学习到的,但是自己从来都没有实践过,所以自己就像一个小白一
样,啥都不懂。现在就跟着CV 实践教程一步一步的来。

3 赛题数据

深度学习的模型就是喂大量的数据,从数据中学习到输入图片,输出正确的字符识别模型,本题的字符
数据是SVNH街道字符,为了适应我们初学者,所以对数据集进行了简化,训练集3W张图片,1W张验
证集,每张图片包括颜色图像、对应的编码类别和集体位置。测试集A、B都是4W张图片。因为降低了
难度,所以已经提供给我们所有的字符位置框,所以真的难的比赛应该是需要我们进行处理。
** 所以后续的学习中这个对数据的处理也是非常重要的一个步骤。**

待识别图片

4 数据标签

对于训练数据每张图片都有相应的编码标签【图片中的字符是什么】、具体的
字符框的位置【标出每个字符的位置是为了提高效率,还是什么作用 ,如果便
签没有这个字符位置会出现什么问题呢?这个问题有待解决】。

在这里插入图片描述
注意:一个字符需要对应一个字符位置,多个字符有多个字符位置。如下:
原始图片与标注

5 评测指标

提交结果与实际图片的编码进行对比,图片中的任一个字符错误,将被视为错误,所以scores得分越高,建立的模型越好。

6 读取数据

这一步主要是从标签数据里面的位置信息,把原始图片的字符图像给抠出来。

抠数据

7 解题思路

7.1 思路1 定长字符识别

观察数据图片,可以看出大部分的字符个数为2-4个,最多的字符个数为6个。所以我们可以抽象为6个字符的识别问题。不够六个字符的我们人为的填充X,每个字符的分类就是变为11个类别了。

7.2 思路2 不定长字符识别

CRNN模型是针对这种不定长的字符识别问题,本题的图片数据是比较规整的,所以可以把字符视为一
个单词或者句子。CRNN应该是在NLP的一个通用模型。

7.3 思路3 检测再识别

听到这个方法的名词马上想到目标检测,看到后面的内容说到了YOLO模型和SSD模型,就知道这个思
路是怎么做的了,就是先把字符检测出来,之后在识别。

8 总结

任务1就是目标就是让我们初学者,遇到一个题目如何如何来思考问题,对数据应该做一些什么操作,
这让我知道数据的预处理是非常重要的,如果没有很好对数据预处理,对模型的训练有非常大的影响,
直接导致训练不出一个好的模型。训练集的损失函数就很大了。还有一个就是一个问题可以有多个解,
我们可以从多个维度思考解决问题。最后,三个思路的方法,现在还不会,所以还有好多东西还需要学
习啊!
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值