文档扫描OCR简介

最新推荐文章于 2023-01-30 16:42:50 发布

dwq3297

最新推荐文章于 2023-01-30 16:42:50 发布

阅读量793

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dwq3297/article/details/106696439

版权

文档扫描OCR识别简介

文档扫描OCR识别（Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。ICR（Intelligent Character Recognition）的名词也因此而产生。衡量一个文档扫描OCR识别系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

一般情况下办公人员想得到的是双层PDF文件——双层PDF文件是一种具有多层结构的格式文件，其特点是：文件既可以是文本型的（比如由word生成的文件），也可以是图像型的（比如由扫描生成的文件）；双层PDF文件是指文件内容既包含文本层，也包含图像层，且其位置上下一一相对应。通过文档扫描OCR识别得到的双层PDF可以在打印的时候保持原图输出，并且可以全文检索复制，是一种非常完美的文件。

文档扫描OCR识别技术的应用方式

由于扫描仪的普及与广泛应用，文档扫描OCR识别软件只需提供与扫描仪的接口，利用扫描仪驱动软件即可。因此，文档扫描OCR识别软件主要是由下面几个部分组成。

图像输入、预处理：进行顺序，以及识别前的准备

二值化：进行识别胶的图片处理，变为黑白两色的图片（在一些专有设备上可以用红外拍摄照片）

噪声去除：去除图片的一些噪点和干扰因素

倾斜较正：对于扫描倾斜的图片，进行倾斜校正

版面分析：把页面分为横排文本，竖排文本ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
文档扫描OCR简介

文档扫描OCR识别简介文档扫描OCR识别（Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。ICR（Intelligent Character Recognition）的名词也因此而产生。衡量一个文档扫描OCR识别系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。一般情况下办公人员想得到的是双层
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。