OCR 基本知识

OCR,optical character recognition 的简称,也就是光学识别系统,属于图形识别的一个分支,OCR是针对印刷体字符,采用光学的方式将文档资料转换成原始资料黑白点阵的图像文件,通过识别软件将图像中的文字识别成中文和英文内码,然后转换成文本格式。这样计算机就可以通过OCR识别系统,可以清楚自己看到了什么,读到了什么,尤其是文字资料。

(1)处理过程:
  影像输入->影像前处理->文字特征的提取->对比识别->最后通过人工矫正将误判的文字更正,最后将结果输出。

(2)具体流程

   1、影像输入:目标文件经过光学仪器后生成位图存储在计算机。

   2、影像预处理:包括二值化、腐蚀与膨胀、中值滤波等。
    
       图像二值化:图像显示的时候只能看到两种颜色(经常是黑白两色)。

     

   3、文字特征的提取:根据字符本身特点,在不同区域采集数据。

   4、对比数据库:通过画板制作相应的字母和数字模板作为对比的标准。

   5、对比识别:根据不用区域的特征比较,找出最相近的字符。

   6、输出结果:将最相近的字符作为识别的结果输出,即识别码输出。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值