爬虫怎样绕过验证码?

1,cookie登录

利用cookie的特性:cookie会保持较长的时间,来避免用户频繁登录

cookie一般由前端开发用js生成,可以利用抓包尝试下破解,不过这个难度有点高,不过破解js本就是爬虫必须直面面对的

2OCR库里的tesseract(光学文字识别)可以解决大多数的传统验证码

软件tesserract-ocr先安装,然后安装pytesserract类库

注意:

1Windows需要下载软件安装包,再配置环境变量             

2linux  直接在命令窗口输入:sudo apt-get tesseract-ocr

模拟浏览器,selenium和PIL库的截屏功能,来识别验证码(save_screenshot截图)

3打码平台

打码兔和QQ超人打码,有提供Python的接入方式,人工打码平台需要收费。

以QQ超人打码平台,先要注册开发者账号,在识别程序中需要填写个人账号进行认证计费,登录之后接入,开始计费(一个码六分钱)

4selenium 来模拟拉动来破解滑动验证码

由于时间过久,滑动验证码已经更改,滑动验证码已经被放弃,现仅供参考使用 

from PIL import Image
from time import sleep
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver import ActionChains
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import random
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
}
chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option('w3c', False)
caps = DesiredCapabilities.CHROME
caps['loggingPrefs'] = {'performance': 'ALL'}
class SliderVerificationCode(object):
    def __init__(self):  # 初始化一些信息
        self.left = 60  # 定义一个左边的起点 缺口一般离图片左侧有一定的距离 有一个滑块
        self.url = 'https://passport.bilibili.com/login'
        self.driver = webdriver.Chrome(executable_path='C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe')
        self.wait = WebDriverWait(self.driver, 20)  # 设置等待时间20秒
        self.phone = "17369251763"
        self.passwd = "abcdefg"
    def input_name_password(self):  # 输入账号密码
        self.driver.get(self.url)
        self.driver.maximize_window()
        input_name = self.driver.find_element_by_xpath("//input[@id='login-username']")
        input_pwd = self.driver.find_element_by_xpath("//input[@id='login-passwd']")
        input_name.send_keys("username")
        self.wait = WebDriverWait(self.driver, 3)
        input_pwd.send_keys("passport")
    def click_login_button(self):  # 点击登录按钮,出现验证码图片
        login_btn = self.driver.find_element_by_class_name("btn-login")
        sleep(random.randint(3, 6))
        login_btn.click()

    def get_geetest_image(self):  # 获取验证码图片
        gapimg = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_canvas_bg')))
        sleep(2)
        gapimg.screenshot(r'./captcha1.png')
        # 通过js代码修改标签样式 显示图片2
        js = 'var change = document.getElementsByClassName("geetest_canvas_fullbg");change[0].style = "display:block;"'
        self.driver.execute_script(js)
        sleep(2)
        fullimg = self.wait.until(
            EC.presence_of_element_located((By.CLASS_NAME, 'geetest_canvas_slice')))
        fullimg.screenshot(r'./captcha2.png')
    def is_similar(self, image1, image2, x, y):
        '''判断两张图片 各个位置的像素是否相同
        #image1:带缺口的图片
        :param image2: 不带缺口的图片
        :param x: 位置x
        :param y: 位置y
        :return: (x,y)位置的像素是否相同
        '''
        # 获取两张图片指定位置的像素点
        pixel1 = image1.load()[x, y]
        pixel2 = image2.load()[x, y]
        # 设置一个阈值 允许有误差
        threshold = 60
        # 彩色图 每个位置的像素点有三个通道
        if abs(pixel1[0] - pixel2[0]) < threshold and abs(pixel1[1] - pixel2[1]) < threshold and abs(
                pixel1[2] - pixel2[2]) < threshold:
            return True
        else:
            return False
    def get_diff_location(self):  # 获取缺口图起点
        captcha1 = Image.open('captcha1.png')
        captcha2 = Image.open('captcha2.png')
        for x in range(self.left, captcha1.size[0]):  # 从左到右 x方向
            for y in range(captcha1.size[1]):  # 从上到下 y方向
                if not self.is_similar(captcha1, captcha2, x, y):
                    return x  # 找到缺口的左侧边界 在x方向上的位置
    def get_move_track(self, gap):
        track = []  # 移动轨迹
        current = 0  # 当前位移
        # 减速阈值
        mid = gap * 4 / 5  # 前4/5段加速 后1/5段减速
        t = 0.2  # 计算间隔
        v = 0  # 初速度
        while current < gap:
            if current < mid:
                a = 5  # 加速度为+5
            else:
                a = -5  # 加速度为-5
            v0 = v  # 初速度v0
            v = v0 + a * t  # 当前速度
            move = v0 * t + 1 / 2 * a * t * t  # 移动距离
            current += move  # 当前位移
            track.append(round(move))  # 加入轨迹
        return track
    def move_slider(self, track):
        slider = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.geetest_slider_button')))
        ActionChains(self.driver).click_and_hold(slider).perform()
        for x in track:  # 只有水平方向有运动 按轨迹移动
            ActionChains(self.driver).move_by_offset(xoffset=x, yoffset=0).perform()
        sleep(1)
        ActionChains(self.driver).release().perform()  # 松开鼠标
    def main(self):
        self.input_name_password()
        self.click_login_button()
        self.get_geetest_image()
        gap = self.get_diff_location()  # 缺口左起点位置
        gap = gap - 6  # 减去滑块左侧距离图片左侧在x方向上的距离 即为滑块实际要移动的距离
        track = self.get_move_track(gap)
        self.move_slider(track)
if __name__ == "__main__":
    springAutumn = SliderVerificationCode()
    springAutumn.main()

 

  • 9
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
爬虫绕过Cloudflare的方法可以包括以下几个步骤: 1. 使用代理:Cloudflare可能会根据IP地址来判断请求的真实性。通过使用代理服务器,您可以隐藏您的真实IP地址,使Cloudflare难以识别您的请求是来自机器人还是真实用户。您可以选择使用公开的代理服务器,或者购买专业的代理服务来确保稳定和安全。 2. 改变请求头信息:Cloudflare也会检查请求的头信息来判断是否是机器人。通过修改请求头中的参数,比如User-Agent、Referer等,使其看起来更像是真实用户的请求。您可以随机生成这些参数,以增加其真实性。 3. 模拟人类行为:Cloudflare可以根据爬虫的行为模式来判断是否是机器人。为了避免被阻止,可以模拟人类的浏览行为,比如增加随机的点击、滚动和鼠标移动。这样可以使爬虫的行为更接近真实用户,减少被识别为机器人的概率。 4. 处理验证码:有些网站通过在Cloudflare的反机器人页面上显示验证码来验证用户的身份。爬虫需要能够识别并自动处理这些验证码,以继续访问受保护的页面。可以使用OCR技术或者借助第三方服务来自动识别和解决验证码。 需要注意的是,绕过Cloudflare的反机器人页面可能涉及到违反网站的服务条款和法律法规。在尝试绕过Cloudflare之前,建议您先与网站所有者或管理员进行沟通,以确保您的行为合法且符合网站的规定。同时,谨慎使用这些方法,并遵守相关法律法规,以免引起法律问题。 总结起来,爬虫绕过Cloudflare的方法包括使用代理、改变请求头信息、模拟人类行为和处理验证码等。这些方法都旨在模仿真实用户的行为,从而减少被Cloudflare识别为机器人的概率[2]。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值