python获取验证码失败_python关于验证码

对于爬虫而言验证码是一定要经过的坎,对于网站开发而言,验证码有着大量生成方法,网站开发者为了应对爬虫以及方便用户阅读,都会有自己的一套方法。

这里介绍了python PIL生成验证码的一种通用方法。

import random

from PIL import Image, ImageDraw, ImageFont, ImageFilter

import numpy as np

_letter_cases = "abcdefghjkmnpqrstuvwxy" # 小写字母,去除可能干扰的i,l,o,z

_upper_cases = _letter_cases.upper() # 大写字母

_numbers = ''.join(map(str, range(1, 10))) # 数字

init_chars = ''.join((_letter_cases, _upper_cases, _numbers))

def create_validate_code(size=(160, 60),

chars=init_chars,

img_type="GIF",

mode="RGB",

bg_color=(255, 255, 255),

fg_color=(0, 0, 0),

font_size=26,

font_type="arial.ttf",

length=4,

draw_lines=False,

n_line=(1, 2),

draw_points=True,

point_chance=2):

"""

@todo: 生成验证码图片

@param size: 图片的大小,格式(宽,高),默认为(120, 30)

@param chars: 允许的字符集合,格式字符串

@param img_type: 图片保存的格式,默认为GIF,可选的为GIF,JPEG,TIFF,PNG

@param mode: 图片模式,默认为RGB

@param bg_color: 背景颜色,默认为白色

@param fg_color: 前景色,验证码字符颜色,默认为蓝色#0000FF

@param font_size: 验证码字体大小

@param font_type: 验证码字体,默认为 ae_AlArabiya.ttf

@param length: 验证码字符个数

@param draw_lines: 是否划干扰线

@param n_lines: 干扰线的条数范围,格式元组,默认为(1, 2),只有draw_lines为True时有效

@param draw_points: 是否画干扰点

@param point_chance: 干扰点出现的概率,大小范围[0, 100]

@return: [0]: PIL Image实例

@return: [1]: 验证码图片中的字符串

"""

width, height = size # 宽高

# 创建图形

img = Image.new(mode, size, bg_color)

draw = ImageDraw.Draw(img) # 创建画笔

def get_chars():

"""生成给定长度的字符串,返回列表格式"""

return random.sample(chars, length)

def create_lines():

"""绘制干扰线"""

line_num = random.randint(*n_line) # 干扰线条数

for i in range(line_num):

# 起始点

begin = (random.randint(0, size[0]), random.randint(0, size[1]))

# 结束点

end = (random.randint(0, size[0]), random.randint(0, size[1]))

draw.line([begin, end], fill=(0, 0, 0))

def create_points():

"""绘制干扰点"""

chance = min(100, max(0, int(point_chance))) # 大小限制在[0, 100]

for w in range(width):

for h in range(height):

tmp = random.randint(0, 100)

if tmp > 100 - chance:

draw.point((w, h), fill=(0, 0, 0))

def create_strs():

"""绘制验证码字符"""

c_chars = get_chars()

strs = ' %s ' % ' '.join(c_chars) # 每个字符前后以空格隔开

font = ImageFont.truetype(font_type, font_size)

font_width, font_height = font.getsize(strs)

draw.text(((width - font_width) / 3, (height - font_height) / 3),

strs, font=font, fill=fg_color)

return ''.join(c_chars)

if draw_lines:

create_lines()

if draw_points:

create_points()

strs = create_strs()

# 图形扭曲参数

params = [1 - float(random.randint(1, 2)) / 100,

0,

0,

0,

1 - float(random.randint(1, 10)) / 100,

float(random.randint(1, 2)) / 500,

0.001,

float(random.randint(1, 2)) / 500

]

img = img.transform(size, Image.PERSPECTIVE, params) # 创建扭曲

img = img.filter(ImageFilter.EDGE_ENHANCE_MORE) # 滤镜,边界加强(阈值更大)

#保存为该验证码名字的jpg

img.save('./img/' + strs + '.jpg')

img = np.array(img)

return strs, img

if __name__ == '__main__':

t, im = create_validate_code()

print(t, im.shape) # (35, 120, 3)

当然对于爬虫而言,更加乐于找各个网站的验证码。

from selenium import webdriver

from PIL import Image

url = '登陆或者注册页面'

options = webdriver.ChromeOptions()

# 设置为开发者模式,防止被各大网站识别出来使用了Selenium

options.add_experimental_option('excludeSwitches', ['enable-automation'])

# 打开无头化

options.add_argument('--headless')

browser = webdriver.Chrome(executable_path="chromedriver.exe路径", options=options)

# 打开网页

browser.get(url)

element = browser.find_element_by_xpath('//*[@id="checkCode"]') #找到验证码图片

print(element.location) # 打印元素坐标

print(element.size) # 打印元素大小

left = element.location['x']

top = element.location['y']

right = element.location['x'] + element.size['width']

bottom = element.location['y'] + element.size['height']

for i in range(10):

browser.save_screenshot('./img/'+ str(i) +'.png')

im = Image.open('./img/'+ str(i) +'.png')

im = im.crop((left, top, right, bottom))

im.save('./img/'+ str(i) +'.png') # 将得到的图片保存在本地

browser.refresh()

browser.close()

利用selenium可以很方便的获取验证码图片,如果想要大量的话就利用循环刷新浏览器,里面加上随机时间sleep

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值