CNN + CTC 解决验证码的识别问题
样例:
样本特点:
清晰,但尺寸较小,字体类型为像素类的
思路:
先生成训练样本,采用的字体为Adore64、4Mini等
训练集示例
训练 + 测评
测试集 1400 + 样本,word acc = 84% + ,character acc = 89% +
思考:
主要错误在字符 g 的样式在测试样本中没有被覆盖,或者说同长相的 g 占比太小
所以,专项训练
2021年08月18日13:50:34 更新
新加入了misc字体,和原始字体风格很接近,生成了一组数据在之前训练的基础上继续训练,word acc = 92 +
心得 : 在OCR中,图像尺寸越小,字体类别对模型训练的结果越大,因为局部特征由于尺寸的缘故,占比会提高