OCR识别文字流程:
1、识别出文字区域(通过滑动窗口算法,遍历整个图片,有监督的标记训练样本特征进行判断,找到目标图片进行矩形化摘取出来)
2、对文字区域矩形分割,拆分成不同的字符(在矩形中做一维滑动窗口移动,判断字符间间距,对字符进行划分)
3、字符分类(对划分好的字符根据监督算法,对字符进行预测)
4、识别出来文字(最终识别出整个字符)
整个流程由多个任务的构成
流程图如下:
举例如下:
通过学习曲线判断分类算法属于低偏差的算法类型,如果不是通过特征向量修正或者增加神经网络隐藏层的方式进行修正。地偏差算法可以通过增加训练样本集的方式提高算法结果
扩大样本训练集的方式
1、把已有的结果经过一定的扭曲获得新的样本(使用已有的数据包,添加不同的背景信息获得标记样本);
2、自己标记或者收集样本信息
3、通过众包的方式,找到廉价的方式标记样本
上限分析
在整个开发算法过程中做上限分析可以让我们明白那些环节应该花费更多的精力优化,才能提升效果
系统整体性能是通过手动分类的结果,直接公布算法的标准答案
每个环节分别提升的效率是通过手工完成之后算法提升的效果,改善该环节之后算法预测的准确率
每个环节的提升的上限均知道之后,就可以明白那些环节提升之后能够更大程度提高系统的优化性能
举例如下:
本课程的总结: