DataWhale-CV-task01赛题理解

最新推荐文章于 2024-07-16 22:11:51 发布

qq_37296909

最新推荐文章于 2024-07-16 22:11:51 发布

阅读量223

点赞数

文章标签：计算机视觉机器学习

本文链接：https://blog.csdn.net/qq_37296909/article/details/106240236

版权

Task01 赛题理解

1 前言
2 赛题背景
3 赛题数据
4 数据标签
5 评测指标
6 读取数据
7 解题思路
8 总结

1 前言

 第一次写博客，markdown编译器也不是很会用，只会使用一些结点的语法，所以博客的样式肯定做的
不是很好，希望下一次任务的时候，可以比这个写的博客进步一点。这个学习笔记主要是记录我在安装
pytorch运行环境中踩过的坑（居然忘记截图了），以及我对街景字符编码识别赛题的理解，主要是遇
到一个计算机视觉的问题，我们该如何把一个大问题，拆解成一个个小的问题，最后把这些小问题的解
决方法汇总起来，就可以解决这些比较复杂的问题。

2 赛题背景

赛题以计算机视觉中字符识别为背景， 要求选手预测真实背景下的字符识别。 我看到这个题目的时
候，我的第一想法是MINIST手写体数字识别数据集，使用CNN卷积神经网络，卷积、池化、卷积、池
化、全连接。这些都是我在理论中学习到的，但是自己从来都没有实践过，所以自己就像一个小白一
样，啥都不懂。现在就跟着CV 实践教程一步一步的来。

3 赛题数据

深度学习的模型就是喂大量的数据，从数据中学习到输入图片，输出正确的字符识别模型，本题的字符
数据是SVNH街道字符，为了适应我们初学者，所以对数据集进行了简化，训练集3W张图片，1W张验
证集，每张图片包括颜色图像、对应的编码类别和集体位置。测试集A、B都是4W张图片。因为降低了
难度，所以已经提供给我们所有的字符位置框，所以真的难的比赛应该是需要我们进行处理。
** 所以后续的学习中这个对数据的处理也是非常重要的一个步骤。**

待识别图片

4 数据标签

对于训练数据每张图片都有相应的编码标签【图片中的字符是什么】、具体的
字符框的位置【标出每个字符的位置是为了提高效率，还是什么作用 ，如果便
签没有这个字符位置会出现什么问题呢？这个问题有待解决】。

在这里插入图片描述
注意：一个字符需要对应一个字符位置，多个字符有多个字符位置。如下：
原始图片与标注

5 评测指标

提交结果与实际图片的编码进行对比，图片中的任一个字符错误，将被视为错误，所以scores得分越高，建立的模型越好。

6 读取数据

这一步主要是从标签数据里面的位置信息，把原始图片的字符图像给抠出来。

抠数据

7 解题思路

7.1 思路1 定长字符识别

观察数据图片，可以看出大部分的字符个数为2-4个，最多的字符个数为6个。所以我们可以抽象为6个字符的识别问题。不够六个字符的我们人为的填充X,每个字符的分类就是变为11个类别了。

7.2 思路2 不定长字符识别

CRNN模型是针对这种不定长的字符识别问题，本题的图片数据是比较规整的，所以可以把字符视为一
个单词或者句子。CRNN应该是在NLP的一个通用模型。

7.3 思路3 检测再识别

听到这个方法的名词马上想到目标检测，看到后面的内容说到了YOLO模型和SSD模型，就知道这个思
路是怎么做的了，就是先把字符检测出来，之后在识别。

8 总结

任务1就是目标就是让我们初学者，遇到一个题目如何如何来思考问题，对数据应该做一些什么操作，
这让我知道数据的预处理是非常重要的，如果没有很好对数据预处理，对模型的训练有非常大的影响，
直接导致训练不出一个好的模型。训练集的损失函数就很大了。还有一个就是一个问题可以有多个解，
我们可以从多个维度思考解决问题。最后，三个思路的方法，现在还不会，所以还有好多东西还需要学
习啊！

qq_37296909

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DataWhale-CV-task01赛题理解

Task01 赛题理解1 前言2 赛题背景3 赛题数据4 数据标签5 评测指标6 读取数据7 解题思路7.1 思路1 定长字符识别7.2 思路2 不定长字符识别7.3 思路3 检测再识别8 总结1 前言第一次写博客，markdown编译器也不是很会用，只会使用一些结点的语法，所以博客的样式肯定做的不是很好，希望下一次任务的时候，可以比这个写的博客进步一点。这个学习笔记主要是记录我在安装pytorch运行环境中踩过的坑（居然忘记截图了），以及我对街景字符编码识别赛题的理解，主要是遇到一个计算机视觉
复制链接

扫一扫