数据集分析

整体情况

我们先对数据集的基本情况看一下,先来看看图片

本次比赛的OCR识别数据集中大部分图像手写文字,例如: mg_crop_100200.jpg

还有一些书法字题,例如: mg_crop_212549.jpg

还有一些图像和标签是不匹配的,也就是说标签是错误的,例如:mg_crop_205899.jpg

这张图像对应在标签文件中给出的标签为: train/mg_crop_205899.jpg 交通写波收入

还有一些数据是带有旋转的,例如旋转了180°或微小角度;还有一些图像是奇怪的图形,并没有文字,还有一些图像是日文、韩文等非本次比赛识别字符范围内的字符。

下面是对应标签

总的来看,数据集质量不是很高,图片分辨率很低,直接用于训练的话,效果肯定很差。所以训练模型的话,需要进行数据清洗与处理工作来防止因为数据集质量而导致的精度下降。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值