Datawhale~零基础CV入门~Day01 赛题理解_datawhale街景识别-CSDN博客

本文链接：https://blog.csdn.net/qq_33866063/article/details/106186806

本文介绍了一个CV入门级赛题，任务是识别街景图片中的数字，采用公开数据集SVHN并匿名处理。赛题评测标准为准确率，数据包括训练集、验证集和两个测试集。文章讲解了数据理解、数据读取、解题思路，建议的解题方法包括定长和不定长字符识别，以及检测再识别策略。环境配置推荐使用OpenCV和PyTorch，还分享了matplotlib的相关学习知识点。

摘要由CSDN通过智能技术生成

赛题理解：

这个赛题是CV入门级赛题，通过街景字符识别来熟悉CV建模思路和竞赛流程。
赛题任务：识别图片中的数字
评测标准：准确率 $\frac{编码识别正确的数量}{测试集图片数量}$
结果提交：sample_submit.csv：提交结果需要保证预测结果的格式与其一致，以及提交文件后缀名为csv。

file_name, file_code
0010000.jpg,451
0010001.jpg,232
0010002.jpg,45
0010003.jpg,67
0010004.jpg,191
0010005.jpg,892

数据理解：

数据获取地址
赛题数据采用公开数据集SVHN，并且进行了匿名和降噪处理，减小了比赛的难度。
训练集数据包括3W张照片，验证集数据包括1W张照片，每张照片包括颜色图像和对应的编码类别和具体位置；为了保证比赛的公平性，测试集A包括4W张照片，测试集B包括4W张照片。

mchar_test_a：4w张图片的测试集A
mchar_train：3w张图片的训练集
mchar_val：1w张图片的验证集
mchar_train.json：存放的是训练数据集的label数据；
mchar_val.json：存放的是验证数据集的label数据。

可以发现有的图片中不止包含一个数字，相应的json文件中就包含了多个数字的位置信息
以下是json文件中存储的内容，包含了样本集中各个图片对应的label以及位置等信息，相当于确定了图片中数字的边框，表示如下：

Field	Description
top	左上角点到图片顶端的距离
height	字符高度
left	左上角点到图片左端的距离
width	字符宽度
label	字符编码

"000000.png": {
   "height": [30.0], "label": [5], "left": [43.0], "top": [7.0], "width": [19.0]}, 
"000001.png": {
   "height": [23, 23, 23], "label"