1.1手写数字图像数据特征分析
数字的类别只有10种,且笔画简单,但测试结果表明,数字的正确识别率还不如印刷汉子。这其中原因如下:
- 数字变化简单且平滑,0~9中一些数字形相近,给准确区分某些数字带来困难。
- 各国的写法有区别,人与人书写笔迹也不同,很难极好的兼顾世界各种写法,算法通用性需要提高。
- 数字的识别常常涉及金融、经济领域。每个数都很重要,对于数字的正确识别率比汉字还要苛刻,因此用户要求不是单纯的高正确率,更重要的是极低的、千分之一甚至万分之一以下的误识率。
识别方法主要分两类:基于统计特征和基于结构特征的方法。
一般,两类各有优势。统计特征法,易于用分类器训练,在给定的训练集上能得到较高的识别率;结构特征法,能描述字符的结构,在识别过程中能结合几何和结构的知识,因此能得到可靠性较高的识别率。