爬虫逆向——某建筑市场监管平台的滑块验证码分析

最新推荐文章于 2024-04-12 16:17:39 发布

流夏_

最新推荐文章于 2024-04-12 16:17:39 发布

阅读量1.6k

点赞数 1

分类专栏： Python 爬虫逆向文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_40279964/article/details/130625686

版权

Python 同时被 2 个专栏收录

20 篇文章 3 订阅

订阅专栏

爬虫逆向

4 篇文章 0 订阅

订阅专栏

网址链接：

aHR0cHM6Ly9nY3htLmh1bmFuanMuZ292LmNuL2RhdGFzZXJ2aWNlLmh0bWw=

（bs64解密可见）

正文：

注：分步的代码为示例代码，文章最后会给出图像处理部分的完整代码

一、思路分析

1、首先看验证码样式，可以看到是个滑块验证，包含一张带缺口的背景大图和一张用于拖动的小图，这类图片处理起来就比较简单。

2、再看图形验证码接口，请求没什么特别需要注意的参数

重点看一下响应预览，返回数据是一个列表，观察可知0、1元素分别是小图和大图的bs64编码，2、3元素用处下面会用到

3、画错一次验证码看看请求结果

4、在请求载荷中有moveX，verifyid。verifyid结合第二步，可知是请求图形验证码接口返回参数中的元素2；moveX应该就是拖动小图进行平移的距离。其他参数除了翻页pageIndex和列表大小pageSize外固定不变。

5、看图片可知，正确的的moveX应该是背景大图缺口的左侧边缘到背景大图左侧边缘的距离，只需要计算出这个长度即可

二、图片处理

大致分为4步：

原图：

1、二值化处理：缺口处填充空白，其他部分填充黑色。其中先对图片进行高斯模糊处理，然后做了灰度处理，最后进行二值化处理。高斯模糊等图像处理相关的看这里：python-opencv 图像处理(滤波，噪点，模糊)

以下是相关示例代码：

# 读取图片
image = cv2.imread(img1)

# 高斯模糊
GAUSSIAN_BLUR_KERNEL_SIZE = (5, 5)
GAUSSIAN_BLUR_SIGMA_X = 0
image = cv2.GaussianBlur(image, GAUSSIAN_BLUR_KERNEL_SIZE, GAUSSIAN_BLUR_SIGMA_X)

# 二值化
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)  ##要二值化图像，必须先将图像转为灰度图
ret, binary = cv2.threshold(gray, 253, 255, cv2.THRESH_BINARY)

# 另存为
cv2.imwrite(img2, binary)

下面是处理后的图片：

2、边缘检测：

名词解释为图像边缘是指图像中表达物体的周围像素灰度发生阶跃变化的那些像素集合。
图像中两个灰度不同的相邻区域的交界处，必然存在灰度的快速过渡或称为跳变，它们与图像中各区域边缘的位置相对应，边缘蕴含了丰富的内在信息，如方向、阶跃性质、形状等，沿边缘走向的像素变化平缓，而垂直于边缘方向的像素变化剧烈。

绘制上图空白处的边缘后结果如下：

3、绘制外接矩形：

为方便计算距离，这里需要绘制出上图的最小外接矩形，结果如下：

4、计算外接矩形到图像左侧的距离：

实际上在绘制外接矩形时会得到矩形的边界坐标，其中最小的（x,y）为矩形的左上角坐标；最大的（x,y）为矩形的右下角坐标。即最小的坐标x就是验证码接口中的 moveX参数。

运行结果如下：

最后将得到的距离作为moveX参数去请求校验接口即可。

三、完整代码

为便于观察，将每一步的图片都进行了保存

import cv2
from PIL import Image
from loguru import logger

class OcrImg():
    def __init__(self):
        # 验证码原图
        self.img1 = './b1.png'

        # 二值化后的图片
        self.img2 = './b2.png'

        # 边缘检测后的图片
        self.img3 = './b3.png'

        # 绘制边缘矩形后的图片
        self.img4 = './b4.png'

        self.GAUSSIAN_BLUR_KERNEL_SIZE = (5, 5)
        self.GAUSSIAN_BLUR_SIGMA_X = 0
        self.CANNY_THRESHOLD1 = 200
        self.CANNY_THRESHOLD2 = 450

    def main(self, input_img_file='./b1.png'):
        self.img1 = input_img_file
        self.threshold_By_OTSU()

        self.detectEdge()

        x1 = self.get_contours()
        logger.info('缺口距左侧边缘 {} 个像素'.format(x1))
        return x1

    # 图片预处理
    def threshold_By_OTSU(self):
        # 读取图片
        image = cv2.imread(self.img1)
        # 高斯模糊
        image = cv2.GaussianBlur(image, self.GAUSSIAN_BLUR_KERNEL_SIZE, self.GAUSSIAN_BLUR_SIGMA_X)

        # 二值化
        gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)  ##要二值化图像，必须先将图像转为灰度图
        ret, binary = cv2.threshold(gray, 253, 255, cv2.THRESH_BINARY)
        cv2.imwrite(self.img2, binary)

    # 求图像img中(x,y)处像素的卷积c
    def convolute(self, img, x, y):
        juanjihe = [1, 1, 1, 1, -8, 1, 1, 1, 1]
        L = []
        xl = [x - 1, x, x + 1]
        yl = [y - 1, y, y + 1]
        for j in yl:
            for i in xl:
                gray = img.getpixel((i, j))  # 取出灰度值
                L.append(gray)
        c = 0
        for i, j in zip(juanjihe, L):
            c = c + i * j
        return c

    # 边缘检测
    def detectEdge(self):
        img1 = Image.open(self.img2)  
        img1 = img1.convert('L')  
        w, h = img1.size
        img2 = Image.new('L', (w, h), 'white')  
        for x in range(1, w - 1):
            for y in range(1, h - 1):
                c = self.convolute(img1, x, y) 
                if c > 0:
                    s = 0
                else:
                    s = 255
                img2.putpixel((x, y), s) 
        img2.save(self.img3)

    # 绘制外接矩形
    def get_contours(self):
        image = cv2.imread(self.img3)
        # 图像转灰度图
        img = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
        # 图像转二值图
        ret, thresh = cv2.threshold(img, 2, 255, cv2.THRESH_BINARY_INV)
        contours, hierarchy = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
        x1 = []
        y1 = []
        x2 = []
        y2 = []
        for c in contours:
            # 找到边界坐标
            x, y, w, h = cv2.boundingRect(c)
            if x != 0 and y != 0 and w != image.shape[1] and h != image.shape[0]:
                cv2.rectangle(image, (x, y), (x + w, y + h), (215, 42, 32), 2)
                x1.append(x)
                y1.append(y)
                x2.append(x + w)
                y2.append(y + h)
        x11 = min(x1)
        y11 = min(y1)
        x22 = max(x2)
        y22 = max(y2)
        print(x11, y11, x22, y22)
        cv2.imwrite(self.img4, image)
        cv2.waitKey(0)

        return x11

if __name__ == '__main__':
    ocr = OcrImg()
    # 传入图片位置
    ocr.main('./a.png')

注：本篇博客只对验证码图片进行了技术分析，不做任何数据抓取存储等操作。

流夏_

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
爬虫逆向——某建筑市场监管平台的滑块验证码分析

滑块验证码图像中两个灰度不同的相邻区域的交界处，必然存在灰度的快速过渡或称为跳变，它们与图像中各区域边缘的位置相对应，边缘蕴含了丰富的内在信息，如方向、阶跃性质、形状等，沿边缘走向的像素变化平缓，而垂直于边缘方向的像素变化剧烈。即最小的坐标x就是验证码接口中的 moveX参数。1、首先看验证码样式，可以看到是个滑块验证，包含一张带缺口的背景大图和一张用于拖动的小图，这类图片处理起来就比较简单。重点看一下响应预览，返回数据是一个列表，观察可知0、1元素分别是小图和大图的bs64编码，2、3元素用处下面会用到。
复制链接

扫一扫