用Selenium实现滑块验证码登录

滑块验证码登录

简介

现在很多网站的登录,都采用了拖动图片滑块的验证码方式来进行验证登录,比如哔哩哔哩和京东等。在使用爬虫等自动化程序时,如何通过滑块验证,就成了需要解决的问题。

这里通过大名鼎鼎的ddddocr图片识别库,和模拟浏览器操作的selenium库来实现

Selenium简介

安装浏览器driver

首先你需要下载一个浏览器的driver,Chrome的下载地址如下,注意参考你的Chrome版本,下载对应的exe文件,然后运行即可。

下载地址:Chrome for Testing availability (googlechromelabs.github.io)

运行后出现下图,放着就行了:

在这里插入图片描述

pip安装Selenium包

pip install selenium

Selenium的基本使用如下:该例子打开百度首页,并搜索python

from selenium import webdriver
from selenium.webdriver.common.by import By

browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
# 通过元素ID获取元素
kw_input = browser.find_element(By.ID, 'kw')
# 模拟用户输入行为
kw_input.send_keys('Python')
# 通过CSS选择器获取元素
su_button = browser.find_element(By.CSS_SELECTOR, '#su')
# 模拟用户点击行为
su_button.click()
input("请输入回车结束")

ddddocr简介

ddddorc库是一个比较好用的图片识别库,目前支持滑块、文字验证码、点选验证码的识别

官方地址:https://github.com/sml2h3/ddddocr

我们用到的语法如下(事实上该例子就在官方文档首页:

slide = ddddocr.DdddOcr(det=False, ocr=False)
    # 这是滑块图片
    with open('target.jpg', 'rb') as f:
        target_bytes = f.read()
    # 这是背景大图片
    with open('background.jpg', 'rb') as f:
        background_bytes = f.read()
    # 返回的是坐标关系
    res = slide.slide_match(target_bytes, background_bytes, simple_target=True)
    
    print(res)

返回值如下,四个值分别表示左上角和右下角的,水平和垂直距离:

{'target_y': 0, 'target': [113, 61, 163, 111]}

实战举例

本次我们来模拟登录京东,因为刚好是一个很容易获取到的滑块验证码网站~

用Selenium获取对应元素进行登录

我们分别获取用户名和密码框,输入账号和密码,然后获取登录框点击登录

def sel_main():
    browser = webdriver.Chrome()
    # browser.maximize_window()
    browser.get('https://passport.jd.com/uc/login')

    # 点击账户密码登录
    up_btn = browser.find_element(By.ID, 'pwd-login')
    up_btn.click()

    # 通过元素ID获取用户名和密码框
    username_input = browser.find_element(By.ID, 'loginname')
    pw_input = browser.find_element(By.ID, 'nloginpwd')
    # 模拟输入
    username_input.send_keys('1xxxxxx93')
    pw_input.send_keys('111222333')
    # 选取登录按钮
    submit_btn = browser.find_element(By.ID, 'loginsubmit')
    # su_button = browser.find_element(By.CSS_SELECTOR, '#su')
    # 模拟用户点击行为
    submit_btn.click()

此时会跳出滑块验证码的图片,我们分别获取他们,将图片下载到本地:

    # 获取验证码图片背景大图
    captcha = browser.find_element(By.XPATH, '//div[@class="JDJRV-bigimg"]/img')
    captcha_img = captcha.get_attribute('src')
    captcha_size = (captcha.size['width'], captcha.size['height'])
    handle_img(captcha_img, 'bg', captcha_size, 'bg_sized')
    # 获取滑块小图
    wrap = browser.find_element(By.XPATH, '//div[@class="JDJRV-smallimg"]/img')
    wrap_img = wrap.get_attribute('src')
    wrap_size = (wrap.size['width'], wrap.size['height'])
    handle_img(wrap_img, 'sm', wrap_size, 'sm_sized')

对验证码图片进行处理

下载到的图片是图片的原始大小,这就会产生一个问题。在浏览器中进行拖动时,实际要拖动的是图片在浏览器中实际渲染出来的大小。这两者中间是存在误差的,所以通过以下方法对图片进行处理,让它变成和浏览器中是一样大的:

def handle_img(img_src: str, name: str, size: tuple, name_sized: str):
    """
    对下载的验证码图片进行处理
    :param img_src: 原图片编码
    :param name: 保存名称
    :param size: 调整的大小,元组(width, height)
    :param name_sized: 调整后的图片名
    :return: 无
    """
    s_img = img_src.replace('data:image/png;base64,', '')
    img_byte = base64.b64decode(s_img)
    with open(f"../images/{name}.png", "wb") as f:
        f.write(img_byte)
    img = Image.open(f"../images/{name}.png")
    res_img = img.resize(size)
    res_img.save(f"../images/{name_sized}.png")

计算拖动距离

验证码图片和滑块都获取到了,通过以下方法,来计算拖动距离

def get_distance(tg_img, bg_img):
    """
    获取滑动距离
    :param bg_img: 底层大图片
    :param tg_img: 滑块小图片
    :return: 返回距离
    """
    # 读取图片
    with open(f"../images/{tg_img}.png", "rb") as f:
        tg = f.read()
    with open(f"../images/{bg_img}.png", "rb") as f:
        bg = f.read()

    det = ddddocr.DdddOcr(det=False, ocr=False, show_ad=False)
    # 目标图无多余背景,需要加入simple_target参数
    res = det.slide_match(tg, bg, simple_target=True)
    return res['target'][0]

模拟进行拖动

滑块的拖动显然不能直接拖过去,那样速度太快太准确,一下子就被发现不是人类啦。所以我们只能尽可能模拟手动操作,用以下方法进行拖动:

def do_moves(browser, distance, btn):
    """
    加速度滑动法,计算生成轨迹然后滑动
    :param browser: 浏览器对象
    :param distance: 滑动距离
    :param btn: 滑动对象
    :return:无
    """
    # 生成运动轨迹
    track = []
    current = 0
    mid = distance * 4 / 5
    t = 0.2
    v = 1
    while current < distance:
        if current < mid:
            a = 4
        else:
            a = -3
        v0 = v
        v = v0 + a*t
        move = v0*t + 0.5*a*t*t
        current += move
        track.append(round(move))
    ActionChains(browser).click_and_hold(btn).perform()
    for x in track:
        ActionChains(browser).move_by_offset(xoffset=x, yoffset=random.randint(-5, 5)).perform()
        # 重置滑动值,否则多次滑动会超出范围
        ActionChains(browser).reset_actions()
    time.sleep(0.5)

    ActionChains(browser).release(on_element=btn).perform()

拖动不一定成功,所以用一个try的循环,如果失败就再来一次

保存cookie

登录成功后用如下语句保存cookie

cookies = browser.get_cookies()
    with open("cookies.json", "w") as c:
        c.write(f"{cookies}")

使用cookie

既然已经模拟登录成功了,那么要如何使用cookie呢?

以下例子访问一个需要登录的页面,来使用cookie

def use_cookies():
    # 我的订单页面,需要登录才能访问
    test_url = "https://order.jd.com/center/list.action"

    # 从本地读取cookie文件,
    with open("cookies.json", 'r') as c:
        cookies = eval(c.read())

    cookie = [item["name"] + "=" + item["value"] for item in cookies]
    # 拼接成字符串
    cookie_str = '; '.join(item for item in cookie)
    print(cookie_str)

    # 将cookie放入header中
    header = {
        'cookie': cookie_str,
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
    }
    html = requests.get(test_url, headers=header)
    print(html.text)

完整代码请参考如下链接:

https://github.com/h-kayotin/kayotin_toolbox/blob/master/sel/sel_JD_login.py

参考资料:https://github.com/zjy6622/python-/blob/master/selenium京东模拟登陆.py

  • 23
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【资源介绍】 基于selenium解决滑块验证码python源码+项目说明+详细注释.tar 一、说明 使用selenium能比较方便的解决滑块验证码,如果不考虑性能的话,这是比较高效的方式。 使用该工具可以方便地进行滑块拖动,成功较高。 #### 二、使用示例 1. ##### 需要判断距离的情况 注意:计算出来的距离与实际要拖动的距离可能有偏差,因为滑块并不一定在图片的最左侧,请调试后进入源码修改 ```python from slider_util import get_img_and_move # 浏览器对象 driver = webdriver.Chrome(options=chrome_options) driver.get('xxx.xxxxx.com') # 获取图片url img_bg_src = driver.find_element(by=By.XPATH, value='//img[@alt="验证码背景"]').get_attribute('src') img_slider_src = driver.find_element(by=By.XPATH, value='//img[@alt="验证码滑块"]').get_attribute('src') # 获取滑块元素 slider = driver.find_element(by=By.XPATH, value='//div[contains(@class,"yidun_slider--hover")]') # 调用工具(参数:背景图片链接、滑块图片链接、selenium对象、滑块元素) get_img_and_move(img_bg_src, img_slider_src, driver, slider) ``` 2. ##### 已经计算出距离的情况 ```python from slider_util import move_to_gap # 浏览器对象 driver = webdriver.Chrome(options=chrome_options) driver.get('xxx.xxxxx.com') # 计算距离 distance = 50 # 获取滑块元素 slider = driver.find_element(by=By.XPATH, value='//div[contains(@class,"yidun_slider--hover")]') # 调用工具(参数:selenium对象,滑块对象,距离) move_to_gap(driver, slider, distance) ``` 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,也适用于小白学习入门进阶。当然也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或者热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载,沟通交流,互相学习,共同进步!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值