Office MODI进行OCR

最新推荐文章于 2021-12-28 13:40:00 发布

原创最新推荐文章于 2021-12-28 13:40:00 发布 · 1.3k 阅读

CC 4.0 BY-SA版权

文章标签：

17 篇文章

订阅专栏

本文介绍如何在Microsoft Office Document Imaging (MODI)中设置多种语言的OCR功能，特别是中文、日文和韩文的支持。文章还介绍了MODI使用的OCR引擎、支持的文件格式以及如何安装和配置额外的语言模块。

部署运行你感兴趣的模型镜像

转载，原文出处： http://www.comicer.com/stronghorse/water/software/officeocr.htm

支持多页TIFF。某些OCR只支持单页TIFF，OCR以后还需要对结果进行合并。当然MODI支持的TIFF页数也不是无限的，我个人的经验是不要超过300页。单页TIFF文件可以用免费的TiffToy合并成多页TIFF，然后再用MODI进行OCR。TiffToy合并时可以选择每合并多少个文件生成一个新文件。
中文标点、文本段落保持得比较好，后期校对省了很多事。
支持的语言比较多，Office支持的语言基本都支持。但是这一点对大多数用户来说无法体会，因为正常情况下，MODI只支持英文和当前Office语言（如简体中文）的OCR，要想支持更多的语言，需要进行一些设置，这就是本文所要讨论的内容。当然我并非语言天才，对于亚洲主要语言（中、日、韩）还算有所了解，其他语言一概无知，所以本文的讨论也仅限于这三国语言。
提供开放的编程接口。对于软件开发人员来说，到微软网站下载一份MODI编程手册，即可开发出基于MODI的、具有多国语言OCR功能的软件。

MODI所使用的中、日、韩OCR引擎，均为清华文通的OCR引擎。
由于简体中文平台的GBK字符集完全覆盖繁体中文、日文，因此繁体中文、日文的OCR结果在简体中文Office环境下均为GBK编码，可以在支持GBK编码的中文平台下正常显示、编辑。当然如果觉得繁体中文看起来比较麻烦，也可以用Word的繁简转换功能，或TextForever的编码转换功能，将GBK繁体转换成GB编码的简体。但是对于韩文来说就没有这么美好了，因为目前GBK还不兼容韩文，所以韩文的OCR结果如果想在简体Office下编辑，大概只能存为HTML或 doc文件，然后用Word编辑。
MODI编程手册可以到这里下载：
http://www.microsoft.com/downloads/details.aspx?FamilyId=8F93E445-B1CF-4477-A373-E17417D616BC&displaylang=en