用Asprise的OCR包,处理验证码。

今天要介绍Java的OCR(图片字符识别)包,由Asprise出品。它甚至可以读条形码。

请从下面的链接下载包含破解的zip文件。

 

Asprise-OCR-Java-Windows_XP_32bit-4.0.zip

 

 

这个包用起来非常简单。

解开上面的zip后,里面有demo-src.jar,把这个jar也解开,打开 com/asprise/util/ocr/demo/Demo.java 看看,就全明白了:

 

 

用ImageIO的read方法从File读入BufferedImage,然后把Image传个OCR类的recognizeEverything方法,这个方法会返回分析出来的字符串(英文和数字)。

 

核心的方法就是这些了,但是用它来处理大多数网站的验证码,都不太好使。

原因很简单,大多数网站的验证码都加入不同程度的噪音,以防止OCR软件的自动分析。

所谓的噪音就是,加入背景颜色,或者加入杂七杂八的点,或者加入横七竖八的线,然后就是扭曲文字等等。

 

那么怎么才能去掉这些噪音,从而让OCR可读呢?

这里以我以前做开心网外挂时用到的程序片段来做例子,给出点思路。

这个程序现在已经不能用了,因为开心网现在的验证码是由汉字组成的了,Asprise只能识别英文和数字。

 

 

 

 

首先,看一下上面的代码,其中 buffer是一个 byte[],它可以是用File打开的二进制文件,用InputStream的read方法读出的byte的全部,也可以是给出的网站的图片的URL,用HttpClient或者其他方法读入的图片二进制流。用ByteArrayInputStream转换后,被ImageIO的read方法转成Image。

 

 

 

上面的代码是对Image进行处理。一个二重循环,用image.getRGB方法来取得每个点的颜色,然后对颜色计数,并放到一个HashMap里去。

这是为后面的去噪音做准备。

 

后面的代码,针对不同的噪音,要用同的方法。这里只是给个思路。

上面是把,已经处理过的HashMap(key是颜色,value该颜色的点的个数)进行排序得到 list。

开心网的验证码是4位,然后每个的颜色不同。那么取list的前5项,必然是背景色和4位验证码的颜色。

 

list = list.subList(0, 5);

 

然后再来个二重循环,把不属于这5种颜色的点,全变成背景色,也就是去噪音了。

上面的程序,首先取出list的第一项(背景)的颜色:int intBack = list.get(0).getKey();

循环体中,如果是背景色或者验证码的颜色(if (setColor.contains(color))),那么继续循环;否则,该点为噪音,要设置成背景色(image.setRGB(i, j, intBack))。

 

最后,当然就是把处理过的Image交个OCR了。

由于分析的来的字符里出现空格的可能很大,所以要删除。

 

以上的程序,对加入横七竖八的别的颜色的线的加噪音方法比较有效,加别的颜色的点,也可以处理。

 

然后对于别的噪音,这里只给点思路,就不给出算法实现了。

 

比方说,对于那些加入和验证码颜色一致的杂七杂八的点的处理。前面的方法不能去除这种噪音。

我们可以做这么个二重循环,分析每个点,如果这个点颜色的四周(上下左右4个点,或者包括斜角共8个点)的颜色不同,而四周的颜色都一致,那么就判定这个点是噪音点,把它设置成和四周颜色一致。

当然,这个噪音未必是一个点,也许是个块,比方说2*2个点,或者3*3个点。如果这样,处理稍微麻烦点。可以用围棋博弈算法里的分块算法,取得每个小块,那些特别小的就判定为噪音。

 

然后说说关于扭曲,通常是把字母的上下往左右拉升。如果要其归位,比较难,未必一定可以实现。

可以考虑,用分块算法,取得的每一块,一个一个处理。处理时,把最左上和最左下画连线,算斜率;最右上和最右下也算斜率。取平均值,然后以平均斜率为base进行纠正。

 

 

 

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 15
    评论
坛子里有破解版的Asprise-OCR-Java,其原理就是利用开启CloseWin.exe窗口扫描有没有Asprise过期的窗口,更具信息框的标题栏来判断是否要关闭此信息窗口。2011年7月以后的使用版无论是点击确定还是关闭按钮,都要跳转到Asprise网站。 此次真正破解的是AspriseOCR.dll这个文件。根据跟踪运行主要汇编代码如下: 10006CF4 . 50 push eax ; /pSystemTime 10006CF5 . FF15 C0931110 call dword ptr ds:[; \GetSystemTime 10006D19 . 68 02000080 push 0x80000002 ; |hKey = HKEY_LOCAL_MACHINE 10006D1E . FF15 10901110 call dword ptr ds:[; \RegCreateKeyExA 110006D39 . 68 9CA61110 push AspriseO.1011A69C ; |Title = "All rights reserved. Lab Asprise! (c) 1998-2008" 10006D3E . 68 D0A71110 push AspriseO.1011A7D0 ; |Text = "You are using the trial version of Asprise OCR. Do you want to remove this message box by buying a very affordable license from Lab Asprise? " 10006D53 . 68 98A71110 push AspriseO.1011A798 ; |FileName = "http://asprise.com/product/ocr/index.php?Ref=Eval" 由此可见,分析结果如下: 1.引用顺序 DevIL.dll ILU.dll AspriseOCR.dll AspriseJTwain.dll (DevIL.dll 是算法库) 2.使用 GetSystemTime获得系统的当前时间,和注册表里的键值(二进制格式,估计是第一次使用时间)处理运算,如果时间过期就会弹信息框提醒需要购买license. 3.注册表中HKEY_LOCAL_MACHINE\SOFTWARE\Asprise OCR\ 有键值,试用版有键值现已将AspriseOCR.dll 破解,经过测试,将电脑时间调整到任何时间,都不会弹信息框。 HKEY_LOCAL_MACHINE\SOFTWARE\Asprise OCR\ 如果以前运行过此类OCR,请将此注册表的键值先 删除。四个动态库可放到C:\WINDOWS\system32 下,也可以放到jre\bin下,或者是PATH 指定环境变量. 仅供个人学习使用。一份网站Asprise-OCR-Java原始Demo,一个破解文件 四个动态库。具体java Demo,参看原始Demo实例。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值