用Pdg2Pic、TextForever实现批量OCR

本文介绍了OCR技术的基本概念、用途及局限性,并重点讲解了为何选择Pdg2Pic和TextForever(PT)进行批量OCR。PT利用微软MODI的OCR引擎,虽然识别率有限,但因其专注于批量处理而受到青睐。讨论了OCR效果的影响因素,如图像质量、语言选择,并提供了在简体和繁体环境中切换OCR语言的方法。最后,概述了OCR后的校对和排版工作。
摘要由CSDN通过智能技术生成

一、FAQ

Q:什么是OCR?

A:OCR是Optical Character Recognition(光学字符识别)的缩写,简单点说,就是将扫描出来的书籍图像文件,转换成可以编辑、查找的文本文件。

Q:为什么要OCR?

A:理由如下(不是全集,您还可以想象其它的理由):

以目前的技术,图像文件还不能进行全文检索,但是转换成文本后想怎么检索都好说。

图像文件上的文字很难被引用,但是复制、粘贴文本谁不会?

与文本文件的尺寸相比,图像文件显得大了点。

图像文件的浏览比较受限制,看多了容易疲劳,文本文件相对好一点。当然也有人对此持相反观点。

不可否认,目前网上文本格式的书源要比图像格式的贫乏许多,在OCR的门槛降低到人人都能参予后,相信会有助于丰富文本格式的书源。

Q:OCR的好处已经明白了,那么它有没有什么短处?

A:世间不如意,常十之八九:

以目前的OCR技术,还不能保证准确率达到100%,因此OCR出来的结果可能会包含大量的错字、别字,需要进行校对。

以目前的技术,想完整再现原文版式是一件很有难度的工作,因此OCR出来的结果通常还需要重新排版。

OCR需要进行复杂的内部运算,消耗大量的CPU时间。

最关键的一点:以目前能够达到的技术,OCR用来识别以文字为主的文史类书籍还凑合,要想识别图文混排、中英文混排、包含复杂表格、字体应用比较丰富(尤其是斜体)的理工类书籍,识别出来的结果多半有点哭笑不得。

如果看了上面的说明后您已经对OCR心灰意冷,可以不必浪费时间往下看了。

Q:为什么要用Pdg2Pic、TextForever来做OCR?

A:目前市面上有很多成熟的OCR产品,包括清华、汉、丹青等。从我使用的情况看,这些产品的识别率基本上已经接近技术的极限, 只是在使用方便性上还有一些不足,尤其是在批量识别方面。而Pdg2Pic、TextForever(以下简称PT)则是专门为了批量OCR而设计的。如果您觉得批量识别用处不大&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值