最近写一个小脚本的体会

最新推荐文章于 2024-10-12 12:26:23 发布

jdr0212

最新推荐文章于 2024-10-12 12:26:23 发布

阅读量605

点赞数 1

分类专栏：杂谈网站脚本相关文章标签： python Python 验证码识别

本文链接：https://blog.csdn.net/jdr0212/article/details/8517266

版权

杂谈同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

网站脚本相关

1 篇文章 0 订阅

订阅专栏

为了一个积分活动，之前用python写了一个自动登录的脚本，一来可以省心省力，二来可以练练手。主要就是抓抓包，分析网页代码，自己组成form然后post过去从而实现模拟登录。其中比较麻烦的就是验证码这一块。验证码： CAPTCHA （Completely Automated Public Turing test to tell Computers and Humans Apart）中文还好，看看英文的单词就知道这个东西本来就是一种区分用户是计算机和人的测试。有攻就有防，现在验证码识别这一块通用的程序几乎没有，但能较好的识别一类的验证码的还是可以做的。高级的验证码识别要涉及到图像处理、机器学习等，用来做一个登录脚本，一是大材小用，二也是在没有这个时间和精力去系统的学习，于是就用了一个现成的python包，pytesser来做这件事。该网站的验证码本来就很傻，成功率也相当高。

脚本很happy得跑了几个月，也给我带了不少小礼物，近期网站的改版使得脚本得重新编写。其中最大的问题还是验证码这块，pytesser不管用了，几乎要三四十次才能识别成功一次。我想这么高的失败率，网站管理员一看日志就可以知道这个是自动登录，封号是迟早的事，所以必须换一个验证码识别算法。刷了一百个验证码样本，发现还是比较规则的，应该是随机选4个字符组成一个图片，图片本身并未加上噪点，而且字符的位置也非常的方正，并未加上干扰。按说这是拿来练手的最傻瓜的验证码，很好奇为啥pytesser识别成功率不高。。。

于是还是自己实现了。很直接的思路就是分割图片，获取所有可能的字符的样本，作为标准集合。然后对于获取的验证码，分割成单个字符后与标准集合进行对比，取相似度最高的那个。一开始相似度判断是用了网上的一段程序（http://blog.csdn.net/lanphaday/article/details/2325027），先转成直方图，然后计算相似度，但明显成功率很低。之后看了下直方图的定义，算是明白了这种方法的局限性。之后还是自己写了一个最傻的，将图片变成二值图，然后计算点积，运行一下，成功率目测90%以上吧。

获得的教训：别人的程序尽量理解了再用，直方图就是那个程序最关键的一步，然而直方图只反映了色彩在y轴上的分布比例，没有反映出这些像素点具体的位置，对图片的相似度识别可能比较有用（比如同一地方不同角度拍得景色，它们可以用直方图的波形来计算，判断图片的风景是否类似），对文字的识别就会产生问题，（因为转换为直方图可以看做一次压缩，丢了太多的信息了，自然对于较细的识别就不管用了）。一开始运行时，过度信任了别人的算法，一直以为是字符分割带来的误差，后来在精读别人的博文后才恍然大悟，走了很多弯路。