python 识别登陆验证码图片(完整代码)_python识别网页验证码

现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!


首先需要获取验证码图片,才能进一步识别。


创建类,定义webdriver和find\_element\_by\_selector方法,用来打开网页和定位验证码图片的元素



class VerificationCode:
def init(self):
self.driver = webdriver.Firefox()
self.find_element = self.driver.find_element_by_css_selector


然后打开浏览器截取验证码图片



def get_pictures(self):
    self.driver.get('http://123.255.123.3')  # 打开登陆页面
    self.driver.save_screenshot('pictures.png')  # 全屏截图
    page_snap_obj = Image.open('pictures.png')
    img = self.find_element('#pic')  # 验证码元素位置
    time.sleep(1)
    location = img.location
    size = img.size  # 获取验证码的大小参数
    left = location['x']
    top = location['y']
    right = left + size['width']
    bottom = top + size['height']
    image_obj = page_snap_obj.crop((left, top, right, bottom))  # 按照验证码的长宽,切割验证码
    image_obj.show()  # 打开切割后的完整验证码
    self.driver.close()  # 处理完验证码后关闭浏览器
    return image_obj

未处理前的验证码图片如下:


![](https://img-blog.csdnimg.cn/20190527112153856.png)


 


未处理的验证码图片,对于python来说识别率较低,仔细看可以发现图片里有很对五颜六色扰乱识别的点,非常影响识别率。


下面对获取的验证码进行处理。


首先用convert把图片转成黑白色。设置threshold阈值,超过阈值的为黑色



def processing_image(self):
    image_obj = self.get_pictures()  # 获取验证码
    img = image_obj.convert("L")  # 转灰度
    pixdata = img.load()
    w, h = img.size
    threshold = 160  # 该阈值不适合所有验证码,具体阈值请根据验证码情况设置
    # 遍历所有像素,大于阈值的为黑色
    for y in range(h):
        for x in range(w):
            if pixdata[x, y] < threshold:
                pixdata[x, y] = 0
            else:
                pixdata[x, y] = 255
    return img

经过灰度处理后的图片


![](https://img-blog.csdnimg.cn/20190527112216551.png)


然后删除一些扰乱识别的像素点。



def delete_spot(self):
    images = self.processing_image()
    data = images.getdata()
    w, h = images.size
    black_point = 0
    for x in range(1, w - 1):
        for y in range(1, h - 1):
            mid_pixel = data[w * y + x]  # 中央像素点像素值
            if mid_pixel < 50:  # 找出上下左右四个方向像素点像素值
                top_pixel = data[w * (y - 1) + x]
                left_pixel = data[w * y + (x - 1)]
                down_pixel = data[w * (y + 1) + x]
                right_pixel = data[w * y + (x + 1)]
                # 判断上下左右的黑色像素点总个数
                if top_pixel < 10:
                    black_point += 1
                if left_pixel < 10:
                    black_point += 1
                if down_pixel < 10:
                    black_point += 1
                if right_pixel < 10:
                    black_point += 1
                if black_point < 1:
                    images.putpixel((x, y), 255)
                black_point = 0
    # images.show()
    return images

经过去除噪点处理后的图片


![](https://img-blog.csdnimg.cn/20190527112233258.png)


最后把处理后的图片转成文字。


先设置pytesseract的路径,因为默认路径是错的,然后转换图片为文字,由于个别图片中识别会出现处理遗漏,会被识别成空格或则点或则分号什么的,所以增加了一个去除验证码中特殊字符的处理。


**PS:**[tesseract文件下载链接](https://bbs.csdn.net/topics/618317507)



def image_str(self):
    image = self.delete_spot()
    pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"  # 设置pyteseract路径
    result = pytesseract.image_to_string(image)  # 图片转文字
    resultj = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])", "", result)  # 去除识别出来的特殊字符
    result_four = resultj[0:4]  # 只获取前4个字符
    # print(resultj)  # 打印识别的验证码
    return result_four

完整代码如下:



import re # 用于正则
from PIL import Image # 用于打开图片和对图片处理
import pytesseract # 用于图片转文字
from selenium import webdriver # 用于打开网站
import time # 代码运行停顿

class VerificationCode:
def init(self):
self.driver = webdriver.Firefox()
self.find_element = self.driver.find_element_by_css_selector

def get_pictures(self):
    self.driver.get('http://123.255.123.3')  # 打开登陆页面
    self.driver.save_screenshot('pictures.png')  # 全屏截图
    page_snap_obj = Image.open('pictures.png')
    img = self.find_element('#pic')  # 验证码元素位置
    time.sleep(1)
    location = img.location
    size = img.size  # 获取验证码的大小参数
    left = location['x']
    top = location['y']
    right = left + size['width']
    bottom = top + size['height']
    image_obj = page_snap_obj.crop((left, top, right, bottom))  # 按照验证码的长宽,切割验证码
    image_obj.show()  # 打开切割后的完整验证码
    self.driver.close()  # 处理完验证码后关闭浏览器
    return image_obj

def processing_image(self):
    image_obj = self.get_pictures()  # 获取验证码
    img = image_obj.convert("L")  # 转灰度
    pixdata = img.load()
    w, h = img.size
    threshold = 160

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是一个使用 Selenium 和 Pillow 库识别滑块验证码Python 代码示例: ```python from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains from PIL import Image # 初始化浏览器 driver = webdriver.Chrome() driver.get('https://www.example.com') # 找到验证码图片元素和滑块元素 captcha_image = driver.find_element_by_xpath('//*[@id="captcha-image"]') slider_button = driver.find_element_by_xpath('//*[@id="slider-button"]') # 获取验证码图片和滑块位置信息 captcha_location = captcha_image.location slider_location = slider_button.location # 计算滑块相对于验证码图片的偏移量 slider_offset_x = slider_location['x'] - captcha_location['x'] slider_offset_y = slider_location['y'] - captcha_location['y'] # 获取验证码图片 captcha_image_base64 = captcha_image.screenshot_as_base64 captcha_image_data = captcha_image_base64.decode('base64') captcha_image_file = open('captcha.png', 'wb') captcha_image_file.write(captcha_image_data) captcha_image_file.close() # 处理验证码图片,获取有效部分和缺口位置 captcha_image = Image.open('captcha.png') captcha_image = captcha_image.convert('L') captcha_image = captcha_image.crop((0, 0, captcha_image.width - slider_offset_x, captcha_image.height)) captcha_image.save('captcha_cropped.png') captcha_image_data = captcha_image.tobytes() captcha_image_size = captcha_image.size # TODO: 使用机器学习或其他算法识别验证码缺口位置 # 移动滑块完成验证 slider_action = ActionChains(driver) slider_action.click_and_hold(slider_button).perform() slider_action.move_by_offset(captcha_image_size[0] - slider_offset_x, 0).perform() slider_action.release().perform() ``` 需要注意的是,上述代码中的 TODO 部分需要使用机器学习或其他算法来识别验证码缺口位置,这是整个验证码识别过程的核心部分,可根据具体情况选择不同的算法和模型进行实现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值