Office MODI进行OCR

转载,原文出处: http://www.comicer.com/stronghorse/water/software/officeocr.htm

 

 

 

  • 支持多页TIFF。某些OCR只支持单页TIFF,OCR以后还需要对结果进行合并。当然MODI支持的TIFF页数也不是无限 的,我个人的经验是不要超过300页。单页TIFF文件可以用免费的TiffToy合并成多页TIFF,然后再用MODI进行OCR。TiffToy合并 时可以选择每合并多少个文件生成一个新文件。
  • 中文标点、文本段落保持得比较好,后期校对省了很多事。
  • 支 持的语言比较多,Office支持的语言基本都支持。但是这一点对大多数用户来说无法体会,因为正常情况下,MODI只支持英文和当前Office语言 (如简体中文)的OCR,要想支持更多的语言,需要进行一些设置,这就是本文所要讨论的内容。当然我并非语言天才,对于亚洲主要语言(中、日、韩)还算有 所了解,其他语言一概无知,所以本文的讨论也仅限于这三国语言。
  • 提供开放的编程接口。对于软件开发人员来说,到微软网站下载一份MODI编程手册,即可开发出基于MODI的、具有多国语言OCR功能的软件。

 

  • MODI所使用的中、日、韩OCR引擎,均为清华文通的OCR引擎。
  • 由于简体中文平台的GBK字符集 完全覆盖繁体中文、日文,因此繁体中文、日文的OCR结果在简体中文Office环境下均为GBK编码,可以在支持GBK编码的中文平台下正常显示、编 辑。当然如果觉得繁体中文看起来比较麻烦,也可以用Word的繁简转换功能,或TextForever的编码转换功能,将GBK繁体转换成GB编码的简 体。但是对于韩文来说就没有这么美好了,因为目前GBK还不兼容韩文,所以韩文的OCR结果如果想在简体Office下编辑,大概只能存为HTML或 doc文件,然后用Word编辑。
  • MODI编程手册可以到这里下载:
    http://www.microsoft.com/downloads/details.aspx?FamilyId=8F93E445-B1CF-4477-A373-E17417D616BC&displaylang=en

 

  • 安装相关语言的OCR模块。MODI本身可以看作一个外壳,真正的OCR功能需要靠不同语言的模块实现。每个语言模块包括相关DLL文件和数据文件,需要复制到MODI的安装文件夹下。
  • 告诉MODI,目前有哪些语言的OCR模块可以使用。这个需要更改注册表,更改后在MODI的OCR选项里即可选择对应的语言。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值