最简单的屏幕OCR文字识别

最新推荐文章于 2021-05-25 12:41:44 发布

qqmmcc

最新推荐文章于 2021-05-25 12:41:44 发布

阅读量810

点赞数 1

分类专栏：模拟精灵文章标签： microsoft office 语言 import 脚本

模拟精灵专栏收录该内容

6 篇文章 0 订阅

订阅专栏

使用office2003附带的MODI可以进行OCR文字识别，不需要取样，使用简单，识别率很不错。
适合用于识别比较规范的文本。缺点是必须安装office2003及Microsoft Document Imaging组件。

这种方法适合于普通文字识别，不太适合做验证码识别。
验证码识别请参考教程：http://www.yhhe.net/ape/book/fap/f2/ix.html

本程序使用了comx插件，请参考贴子：http://www.yhhe.net/bbs/dispbbs.asp?BoardID=4&ID=179&replyID =

下面是演示源代码：

下载模拟精灵: http://www.yhhe.net/Fairy_Ape.exe
打开模拟精灵 ，把下面的代码粘贴到源码编辑，按F5运行即可。

img = image.new( ) ;--创建一个图片对象
img:capture( 0 ,100 ,200 ,300 ,400 ) ;--抓屏，范围x=100,y=200,宽=300，高=400
img:save( _LASDIR.." // test.bmp" ) ; --保存图片到脚本目录(也就是_LASDIR)下

--导入comx插件
import( "std" ) ;
import2( "comx" ,"http://www.yhhe.net/ape/import/comx/comx.dll" ) ;

--创建MODI对象(必须安装office2003中的Microsoft Document Imaging组件)
mdoc = comx.CreateObject( "MODI.Document" ) ;
if ( not mdoc) then
    win.messageBox( "请将安装office2003及Microsoft Document Imaging组件" ,"屏幕ocr文字识别" )
    return
   false ;
end ;

--导入图片
mdoc:Create( _LASDIR.." // test.bmp" ) ;
--进行OCR识别，参数分别为语言ID，是否自动诱转，是否自动拉伸
mdoc:OCR( 0x804,_FALSE,_FALSE) ;

local mi = mdoc.Images( 0 ) ;
--快速获取取全部文本
win.messageBox( mi.Layout.Text,"mdoc.Images(0).Layout.Text" ) ;

--获取字符详细信息
local word = mi.Layout.Words( 0 )
local str = "Id: " .. word.Id .. " /r /n "

str = str .. "Line Id: " .. word.LineId .. " /r /n " ;
str = str .. "Region Id: " .. word.RegionId .. " /r /n " ;
str = str .. "Font Id: " .. word.FontId .. " /r /n " ;
str = str .. "Recognition confidence: " .. word.RecognitionConfidence .. " /r /n " ;
str = str .. "Text: " .. word.Text;

win.messageBox( str,"mdoc.Images(0).Layout.Words(0)" )