最简单的屏幕OCR文字识别

最简单的屏幕OCR文字识别

使用office2003附带的MODI可以进行OCR文字识别,不需要取样,使用简单,识别率很不错。
适合用于识别比较规范的文本。缺点是必须安装office2003及Microsoft Document Imaging组件。

这种方法适合于普通文字识别,不太适合做验证码识别。
验证码识别请参考教程:http://www.yhhe.net/ape/book/fap/f2/ix.html

本程序使用了comx插件,请参考贴子:http://www.yhhe.net/bbs/dispbbs.asp?BoardID=4&ID=179&replyID=

下面是演示源代码:

下载模拟精灵: http://www.yhhe.net/Fairy_Ape.exe
打开模拟精灵,把下面的代码粘贴到源码编辑,按F5运行即可。

img = image.new();--创建一个图片对象
img:capture(0,100,200,300,400);--抓屏,范围x=100,y=200,宽=300,高=400
img:save(_LASDIR.."//test.bmp"); --保存图片到脚本目录(也就是_LASDIR)下
   
--导入comx插件
import("std");
import2("comx","http://www.yhhe.net/ape/import/comx/comx.dll");
 
--创建MODI对象(必须安装office2003中的Microsoft Document Imaging组件)
mdoc = comx.CreateObject("MODI.Document");
if(not mdoc)then
    win.messageBox("请将安装office2003及Microsoft Document Imaging组件","屏幕ocr文字识别")
    return
   false;
end;
 
--导入图片
mdoc:Create(_LASDIR.."//test.bmp");
--进行OCR识别,参数分别为语言ID,是否自动诱转,是否自动拉伸
mdoc:OCR( 0x804,_FALSE,_FALSE);
 
local mi = mdoc.Images(0);
--快速获取取全部文本
win.messageBox(mi.Layout.Text,"mdoc.Images(0).Layout.Text");
 
--获取字符详细信息
local word = mi.Layout.Words(0)
local str =  "Id: " .. word.Id .. "/r/n"
   
str = str .. "Line Id: " .. word.LineId .. "/r/n";
str = str .. "Region Id: " .. word.RegionId .. "/r/n";
str = str .. "Font Id: " .. word.FontId .. "/r/n";
str = str .. "Recognition confidence: " .. word.RecognitionConfidence .. "/r/n";
str = str .. "Text: " .. word.Text;
 
win.messageBox(str,"mdoc.Images(0).Layout.Words(0)")

 

mdoc:OCR 函数的第一个参数指定语言ID
在简体中文office中可选的语言ID有:

自动选择 0x800
英语 9
简体中文 0x804

在繁体中文office中可选的语言ID有:

自动选择 0x800
英语 9
繁体中文 0x404

正确的指定语言ID可以提高识别率。
如果mdoc:OCR 没有在图片中找到文字,会报错并终止模拟程序。

  
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值