中安OCR文字识别

最新推荐文章于 2024-11-01 17:13:19 发布

weixin_30361753

最新推荐文章于 2024-11-01 17:13:19 发布

阅读量285

点赞数

文章标签：人工智能 c/c++ 操作系统

原文链接：http://www.cnblogs.com/wangjiarui666/p/11275913.html

版权

什么是OCR识别技术？

OCR技术是光学字符识别的缩写(Optical Character Recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本，通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据，通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。
在档案领域OCR技术使档案扫描成果达到了全文可识别，将档案数字化发展提升了到了一个新的阶段，是原本扫描出来的图片变得更容易进行检索，为数字档案馆的数据查询提供了技术支持，是档案数字化发展中必不可少的一环。
北京中安OCR文字识别系统
1、支持识别TIF、PNG、BMP、JPG格式图片，PDF文件；

2、版面分析：横排文本、竖排文本、图像、表格版面，将识别结果最大程度还原到识别原件的内容；包括表格、图像的格式还原，段落的格式还原；

3、支持中文简体，中文繁体，英文，日文、韩文，俄文，德文，法文，意大利文；（备注：后续可升级支持：藏文识别、维吾尔文识别、维文识别、哈萨克文识别、阿拉伯文识别、柯尔克孜文识别等）；

4、支持对图片进行，滤红，去下划线，倾斜矫正，自动旋正；

5、支持对内存中的图像进行识别；OCR算法中为了保障识别率本身就包括图像输入、预处理、二值化、噪声去除、段落处理、字符切割、字符识别等处理；

6、识别300DPI 宋体字扫描文档 99.8%的识别率，700毫秒/A4；（跟页面复杂程度有关）；

7、支持结果导出为可编辑的：XML、双层PDF、TXT、RTF格式（WORD文本编辑）、XLS格式（EXCEL表格编辑）；

8、提供可靠、方便集成的OCR SDK开发包；

9、集成开发接口最全：C、C++、VB、VC、JAVA、DELPHI；

1、支持Windows操作系统；

2、支持Linux操作系统：（仅支持中文、英文识别、输出TXT、双层PDF结果）

转载于:https://www.cnblogs.com/wangjiarui666/p/11275913.html

weixin_30361753

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。