中日韩、纯英文都可以用OCR识别

国内的OCR扫描识别软件。

一般通用的文档扫描软件,只能扫描识别简单的简体中文。

对于像纯英文、韩语、日语等的识别技术相对来说难度较大。

 

对于像这种外文文字的识别,需要更强大的识别核心技术。要具备高性能的文字识别引擎。

包括编码格式都需要达到国际的编码标准,比如UNICODE编码。

 

目前对于韩语、日语等外籍文字的扫描识别,一般还是集中在对于大幅面的文档扫描识别。

简体中文和繁体中文,大都集中在报社的报纸以及出版物数字化方面的应用。

 

要把印刷的文档转化为可以供阅读和可编辑的高质量电子文档。已经是现代的一种市场需求。

只有转化为电子版,才能应用到各类数据库、电子出版物、数字图书馆等。。。

但是目前很多报社都是采取手工录入的方式。

耗费的人力成本和浪费的时间更是让行业内人员苦不堪言。

 

其实对于这种行业市场趋势和行业问题的解决。有很多厂商和技术开发厂商已经有所斩获。

比如报纸来说。排版相对来说比较规范,文本、图片、表格。无非就是这几种表现形式。

只要针对这几个方面进行相应的开发和版面分析。不难做到精准识别。

 

识别软件大同小异。但是往往区别就体现在识别率上、出错率上、版面还原度高不高上。

想必大家用过一些免费的识别软件,不是出现乱码,就是横七竖八的一大堆东西。

总之很头疼。不过也无可厚非。免费的东西总是不尽人意。

 

而这些免费的测试版,只是商家的一个前期广告推广,市场推广。

想要体验或使用成熟的产品。为公司的运行提升效率,还是建议读者购买正式版。

 

国内这几年也在大力的研发和钻研这种OCR识别技术。

如同那些默默无闻制造CPU、相机镜头、HIWI组件的厂商一样。

OCR 行业内也存在着这种现象。有些公司在这方面相当的技术成熟,但是却很少为人所知。

 

打个比方,冰箱品牌也数不胜数。但是大家知道海尔、容声之类的大品牌。

但是不可否认人家花大价钱投入了市场的宣传和开拓,才有了这样的广告效应。

可是不代表那些提不上名的冰箱就质量不行。只是没有那样烧钱而已。

 

最近和很多集成商打交道。

总是在提北京一家公司的OCR技术很成熟。但是着实没有在业界听过。

所以特意上网搜索了一下。公司名字是  北京文通科技有限公司。

 

简单看了一下公司的历史背景。还是具有一定的吸引力的。

这家公司成立于1992年,是清华大学电子工程系智能图文信息处理研究室提供的技术支持。

并且和国家“863计划”挂钩。成功的把清华的OCR技术产业化。

 

由于自己只关心韩文和日语的识别,所以没有看太多的公司产品。

但是公司官网上显示的挺多,比如有媒资管理系统和舆情监控方面使用的视频文字识别系统。

像常见的二代身份证识别、条码扫描识别、政府公文识别、普通文档的识别都有成熟的一体化产品。

 

经过集成商的推荐,试用了北京文通科技有限公司的 TH-OCR 2013 文通数据录入工厂。

主要是识别韩文、日文。但是内置可以识别简体、繁体、纯英文、日文、韩文等多种语言。

经过试用,整体很给力。只要版面不是特别的乱,像韩文、日文都可以达到98%的识别率。

只需要简单的手动校对或者通过软件内置的校对工具修正,就能马上完成识别。挺好用。

 

平时报社里过去的印刷版文档太多了,靠人工录入简直苦不堪言啊。

如果能用这种软件快速扫描识别。简直是一大美事。

希望软件不要出太多的BUG,不过目前测试很正常。

后期就希望把软件的事落地,成本降下来是关键。

 

我们身处信息化大爆炸的时代。或者说已经趋向于泛滥了。

电子化是趋势。无论是吸取知识的方式方法、还是随手拍摄的一朵鲜花。

OCR识别也是一种未来普及的技术吧。

 

自己本身也是闲聊。杂谈。

博友们想了解更多可以加关注留言。互动交流。

直接在百度首页搜索 北京文通科技有限公司 公司网站里有免费的使用。大家感兴趣的可以下载使用,体验一下。

祝读者每天学到新知识。每天传递正能量。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/30217315/viewspace-1589680/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/30217315/viewspace-1589680/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值