法院数字化、数字化档案馆必备利器——OCR文字识别

最新推荐文章于 2024-05-07 15:48:52 发布

chenyusheng1968

最新推荐文章于 2024-05-07 15:48:52 发布

阅读量882

点赞数

文章标签：人工智能

原文链接：https://my.oschina.net/u/3845454/blog/2989074

版权

在资料录入行业的应用

档案、文书、文案等文献资料的数字化录入，一般都是由专门做数字化加工业务的公司承接完成！这些公司一般都会有几十个工作人员，分工明确，处理图像、分析识别、结果校对、输出文件等工序是一条龙串行工作运行。这就像一个生产加工的工厂，流水作业生产最后的电子文件。

OCR技术识别文档文字的识别率

文字文档识别OCR技术的识别效果，主要看两方面：OCR程序是否优秀、图片文件是否清晰符合标准，具体表现在以下几方面：

1、图片：建议扫描仪分辨率设置为300DPI规格的参数；手机拍照的话建议摄像头像素为500万像素以上的摄像头；

2、颜色：常规的传统的OCR识别要求为白底黑字或者浅底黑字；如果是彩色背景图片的文字则需要特殊的OCR识别程序，比如文通视频文字识别系统；

3、字体：目前全世界范围内的OCR技术都是针对“宋体印刷字”的字形做识别库的；

4、程序：好的OCR程序遇到好的图片，识别效果才会优秀；在这里推荐北京文通科技推出的OCR程序，包括OCR-SDK开发包产品、OCR技术识别文档APP产品等等。

双层PDF的好处：可以在打印的时候保持原图输出，并且可以全文检索复制，是一种非常优质的可存储文件。

OCR技术识别文档文字的概括

我们常说的OCR、文字识别、OCR技术识别文档是指通过电子设备等将纸质上的文字识别出来，形成可编辑的文字。

OCR技术识别文档文字的流程

随着扫描仪的普及与广泛应用，再加上摄像头迅速发展的手机等智能终端设备的应用，OCR技术识别文档软件越来越被应用于各种业务系统中。

常规的OCR文字识别处理的过程包括：

1、图像输入、预处理：二值化图片、噪声去除、倾斜较正；

2、版面分析：把页面分为横排文本、竖排文本、表格、图片等不同区域，帮助字符切割、识别OCR；

3、设置语种：选择需要什么OCR语种的引擎程序；

4、输出结果：输出OCR识别结果为原版原样的优质文件；

OCR技术识别文档系统，只要把图像作一个转换，使图像内的字符继续保存、有表格则表格内资料及图像内的文字，一律变成计算机文字，方便日后查询检索重复利用。

通常公司企业的办公人员想得到的是双层PDF文件——双层PDF文件是一种具有多层结构的格式文件，其特点是：文件既可以是文本型的（比如由word生成的文件），也可以是图像型的（比如由扫描生成的文件）；双层PDF文件是指文件内容既包含文本层，也包含图像层，且其内容文字的位置上下一一相对应。通过OCR技术识别文档得到的双层PDF可以在打印的时候保持原图输出，并且可以全文检索复制，是一种非常优质的可存储文件。

集成使用联系：

转载于:https://my.oschina.net/u/3845454/blog/2989074

chenyusheng1968

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
法院数字化、数字化档案馆必备利器——OCR文字识别

在资料录入行业的应用档案、文书、文案等文献资料的数字化录入，一般都是由专门做数字化加工业务的公司承接完成！这些公司一般都会有几十个工作人员，分工明确，处理图像、分析识别、结果校对、输出文件等工序是一条龙串行工作运行。这就像一个生产加工的工厂，流水作业生产最后的电子文件。 ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。