web自动化之验证码识别解决方案

最新推荐文章于 2024-05-17 03:40:44 发布

weixin_30670151

最新推荐文章于 2024-05-17 03:40:44 发布

阅读量1.5k

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/nmb-musen/p/10954287.html

版权

验证码识别解决方案

对于web应用程序来讲，处于安全性考虑，在登录的时候，都会设置验证码，验证码的类型种类繁多，有图片中辨别数字字母的，有点击图片中指定的文字的，也有算术计算结果的，再复杂一点就是滑动验证的。诸如此类的验证码，对我们的系统增加了安全性的保障，但是对于我们测试人员来讲，在自动化测试的过程中，无疑是一个棘手的问题。

1、web自动化验证码解决方案

一般在我们测试过程中，登录遇到上述的验证码的时候，有以下种解决方案:

第一种、让开发去掉验证码
第二种、设置一个万能的验证码
第三种、通过cookie绕过登录
第四种、自动识别技术识别验证码

2、自动识别技术识别验证码

前三种解决方案，想必大家都比较了解，本文重点阐述第四种解决方案，也就是验证码的自动识别，关于验证码识别这一块，可以通过两个方案来解决，

第一种是：OCR自动识别技术，

第二种是：通过第三方打码平台的接口来识别。

OCR识别技术

OCR中文名称光学识别， tesseract是一个有名的开源OCR识别框架，它与Leptonica图片处理库结合，可以读取各种格式的图像并将它们转化成超过60种语言的文本，可以不断训练自己的识别库，使图像转换文本的能力不断增强。如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎。那么接下来给大家介绍一下如何使用tessract来识别我们的验证码。

关于OCR自动识别这一块，需要大家安装Tesseract，并配置好环境，步骤如下

1)、安装tesseract

适用于Tesseract 3.05-02和Tesseract 4.00-beta的

Windows安装程序下载地址：https://github.com/UB-Mannheim/tesseract/wik。

2)、加入培训数据

tesseract 默认只能识别英文，如果您想要识别其他语言，则需要下载相应的培训数据

下载地址：https://github.com/tesseract-ocr/tesseract/wiki/Data-Files，

下图为中文数据包

我们只做中文，暂时下载一个中文的文字训练数据就可以，然后将.traineddata文件复制到安装之后的'tessdata'目录中。C:\OCR\Tesseract-OCR\tessdata

3)、配置环境变量

要从任何位置访问tesseract-OCR，您可能必须将tesseract-OCR二进制文件所在的目录添加到Path变量中C:\OCR\Tesseract-OCR。

安装后tesseract之后，并不能直接在python中使用，我们要想在python中使用，需要安装pytesseract模块我们可以通过 pip 安装

pip install pytesseract

python中识别验证码图片内容

安装好后。找一张验证码图片，如下图（命名为test.jpg），放在当前python文件同级目录下面，

使用 PIL中的Image中的open方法打开验证码图片，调用pytesseract.image_to_string方法，可以识别图片中的文字，并且转换成字符串，如下面代码所示。

import pytesseract
from PIL import Image
pic = Image.open('test.jpg')
# pic 为打开的图片,lang指定识别转换的语言库
text = pytesseract.image_to_string(pic,lang='chi_sim')
print(text)

最低0.47元/天解锁文章

weixin_30670151

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
web自动化之验证码识别解决方案

验证码识别解决方案对于web应用程序来讲，处于安全性考虑，在登录的时候，都会设置验证码，验证码的类型种类繁多，有图片中辨别数字字母的，有点击图片中指定的文字的，也有算术计算结果的，再复杂一点就是滑动验证的。诸如此类的验证码，对我们的系统增加了安全性的保障，但是对于我们测试人员来讲，在自动化测试的过程中，无疑是一个棘手的问题。1、web自动化验证码解决方案一般...
复制链接

扫一扫