整体情况
我们先对数据集的基本情况看一下,先来看看图片
本次比赛的OCR识别数据集中大部分图像手写文字,例如: mg_crop_100200.jpg
还有一些书法字题,例如: mg_crop_212549.jpg
还有一些图像和标签是不匹配的,也就是说标签是错误的,例如:mg_crop_205899.jpg
这张图像对应在标签文件中给出的标签为: train/mg_crop_205899.jpg 交通写波收入
还有一些数据是带有旋转的,例如旋转了180°或微小角度;还有一些图像是奇怪的图形,并没有文字,还有一些图像是日文、韩文等非本次比赛识别字符范围内的字符。
下面是对应标签
总的来看,数据集质量不是很高,图片分辨率很低,直接用于训练的话,效果肯定很差。所以训练模型的话,需要进行数据清洗与处理工作来防止因为数据集质量而导致的精度下降。