反反爬虫(1) ：破解图片/文字验证码（翻过这座山，让世界听到你的故事）

最新推荐文章于 2024-05-03 16:41:46 发布

zzzzls~

最新推荐文章于 2024-05-03 16:41:46 发布

阅读量5.1k

点赞数 13

分类专栏：爬虫文章标签： python 验证码反爬虫爬虫图片验证码

本文链接：https://blog.csdn.net/qq_36078992/article/details/110329707

版权

爬虫专栏收录该内容

10 篇文章 8 订阅

订阅专栏

文章目录

验证码
- 字符验证码
小结

验证码

全自动区分计算机和人类的公开图灵测试 (Completely Automated Public Turing test to tell Computers and Humans Apart)，简称 CAPTCHA，俗称 验证码。

由于这个测试是由计算机来考人类，而不是标准图灵测试中那样由人类来考计算机，所以也被称为反向图灵测试。

验证码可以有效防止恶意注册，刷票，论坛“灌水” 等有损网站利益的行为。验证码的原理很简单：人类有主观意识，能够根据要求执行操作，而计算机却不能。

最初，验证码是一张带有字符的图片，用户只需要将图片中的字符输入到文本框中即可，但这种简单的验证码很快就被绕过了。于是人们向图片中加入了一些混淆的元素，如斜线，彩色斑点等。接着出现了一些基于用户操作的验证码，也就是行为验证码。常见的有滑动验证码，拼图验证码和文字点选验证码等。

字符验证码

字符验证码是指用数字，字母，汉字和标点符号等字符作为元素的图片验证码。字符验证码是常见的验证码类型。它将人类视觉和计算机视觉的差异作为区分用户身份的依据。

在这里插入图片描述

OCR识别

我们曾在前边的文章中使用百度AI开放平台文字识别成功地从图片中识别电话号码，那么是否可以用来识别验证码图片中的文字呢？将网站中的验证码保存到本地，然后调用百度OCR 进行识别：

在这里插入图片描述

相较于之前的电话号码来说，本次所面对的验证码是带有彩色背景斜线和噪点，而且图片中字符颜色和背景色并没有强烈反差，这些因素都会影响识别效果。

要想提高识别的成功率，我们必须对图片进行处理，例如降低斜线和噪点对文字的干扰，增强背景色与字符颜色的反差。

也就是说，我们需要对图片进行灰度处理（去掉彩色）和二值化处理（降低干扰，增强颜色反差）。

灰度处理

from PIL import Image

im = Image.open(r"C:\Users\Administrator\Desktop\code.png")
im = im.convert('L')
im.show()

在这里插入图片描述

这时候整张图片变成了灰色，但字符颜色与背景颜色并不明显，对识别没有明显帮助。接下来，我们对图片进行二值化处理，并尝试识别处理后的图片。

二值化处理

二值化处理其实就是根据阈值调整原图的像素值，将大于阈值的像素点颜色改为白色，小于阈值的像素点颜色改为黑色，这样就能够达到增强颜色反差的目的。

def handler(grays, threshold=170):
    """
    二值化处理
    :param grays: 待处理的图片
    :param threshold: 默认阈值为 160, 可根据实际情况调整
    :return:
    """
    table = []
    for i in range(256):
        if i < threshold:
            table.append(0)
        else:
            table.append(1)
    anti = grays.point(table, '1')
    return anti

彩色的验证码图片在经过灰度和二值化处理后变成了如下的样子

在这里插入图片描述

OCR识别

处理后的图片轮廓清晰，字符与背景颜色反差大。此时我们再次调用百度OCR 对图片进行识别

在这里插入图片描述

本次识别的效果还是不错的，那么我们多获取一些验证码图片尝试一下

在这里插入图片描述

对于随机的 8张略微复杂的验证码，OCR 的效果就不忍直视了。在实际应用中，图片验证码的识别成功率达到 75% 才能够满足爬虫工程师的需求。面对这样的问题，我们是否还有其他的解决方法呢？

打码平台

打码平台的主要功能就是提供验证码识别，目前主流的打码平台都支持数字、汉字、英文字母、图片、座标、答题等各种形式的验证码的智能识别，机器与人工相配合，平均识别时间 1~3秒，有着非常高的识别率

本次我们以超级鹰打码平台为例，展示打码平台的使用！

在这里插入图片描述

注册账号登录网站
查看接口开发文档，在超级鹰的文档中，我们可以很容易找到接口地址，请求方式，参数设置等信息

在这里插入图片描述

编写代码

import base64
import requests

def vaifyCode_API(path):
    # 图片处理
    with open(path, 'rb') as f:
        img_content = f.read()
    img = base64.b64encode(img_content)

    # 参数构造
    data = {
        'user': '账号',
        'pass': '密码',
        'softid': '软件ID',
        'codetype': '1902',  # 验证码类型
        'file_base64': img,  # 图片base64字符串
    }
    url = 'http://upload.chaojiying.net/Upload/Processing.php'

    # 发起请求
    data = requests.post(url=url, data=data).json()
    
    # 返回识别结果
    return data.get('pic_str')

result = vaifyCode_API('1.jpg')
print(result)

识别结果

在这里插入图片描述

小结

添加了干扰信息的字符验证码可以有效增加识别难度和错误率。除了斜线和噪点外，还可以使用字符扭曲，角度旋转和文字重叠等方法。

对于复杂验证码的识别，本文仅介绍了打码平台的使用，此外我们还可以借助深度学习来对验证码进行识别工作。

zzzzls~

关注

13
点赞
踩
26

收藏

觉得还不错? 一键收藏
10
评论
反反爬虫(1) ：破解图片/文字验证码（翻过这座山，让世界听到你的故事）

最初，验证码是一张带有字符的图片，用户只需要将图片中的字符输入到文本框中即可，但这种简单的验证码很快就被绕过了。于是人们向图片中加入了一些混淆的元素，如斜线，彩色斑点等。接着出现了一些基于用户操作的验证码，也就是行为验证码。常见的有滑动验证码，拼图验证码和文字点选验证码等。
复制链接

扫一扫