python实现网站的自动登录(selenium实现,带验证码识别)

python实现网站自动登录(selenium实现,带验证码识别)

一、前言

这是鄙人写的第一篇博客,旨在总结一下近期所学,本文通过selenium工具实现工作所用网站的自动登录,下图为网站登录界面。登录界面

1、运行环境

操作系统:Windows10
python版本:python3.7

2、需要的python第三方库

1、selenium
安装:pip install selenium

selenium是ThoughtWorks提供的一个强大的基于浏览器的开源自动化测试工具。支持的浏览器包括IE、Chrome和Firefox等。

另外还需要下载浏览器驱动,我这里用的是Google浏览器驱动。
Google浏览器驱动:官网地址

选择适配的浏览器版本和Windows系统,然后将下载得到的exe文件放到python的安装目录下。
2、baidu_api
安装:pip install baidu_api

baidu_api是百度文字识别的OCR(Optical Character Recognition,光学字符识别),很多人可能会用tesseract库,但以测试的效果来看,百度的API识别效果更好。了解此库大家可以看官方文档。 百度OCR-API官方文档
3、pillow
安装:pip install pillow

pillow库是python最常用的第三方图像处理库

二、代码实现

1、导入第三方库

from selenium import webdriver
from PIL import Image
from aip import AipOcr

2、验证码的获取与处理

在进行验证码的获取之前,需要先实例化一个browser对象,代码如下:

browser = webdriver.Chrome()  # 实例化对象

获取验证码的方法是通过实例化后的browser对象的查找元素方法的得到验证码元素并截图。
下为网站源代码的验证码标签。
验证码标签
代码如下:

url = 'http://120.77.44.123/Login/Login.aspx?title=exit&recode=1'
browser.get(url)
png = browser.find_element_by_id('captcha_img')  # 查找验证码元素
png.screenshot('capt.png')  # 对验证码进行截图并保存

这是获得的验证码图片:
原始验证码图片
为了提高验证码的识别率,我们需要用pillow库对验证码进行图像处理。
处理方法如下:
1、先将图像转换成灰度模式
2、通过对阈值的调整使得多余的噪点消失

img = Image.open('capt.png')
img = img.convert('L')  # P模式转换为L模式(灰度模式默认阈值127)
count = 165  # 设定阈值
table = []
for i in range
  • 18
    点赞
  • 165
    收藏
    觉得还不错? 一键收藏
  • 14
    评论
要使用 Python Selenium 调用阿里 API 实现图片验证码识别,您需要先注册阿里云账户并开通 OCR 服务。然后,您可以按照以下步骤进行操作: 1. 安装阿里云 Python SDK 您可以使用以下命令进行安装: ``` pip install aliyun-python-sdk-core-v3 pip install aliyun-python-sdk-ocr ``` 2. 在 Python 中调用 OCR API 以下是一个示例代码,它可以将本地图片文件上传到阿里云 OCR 服务,并返回识别结果: ```python from aliyunsdkcore.client import AcsClient from aliyunsdkocr.request.v20191230 import RecognizeCharacterRequest # 阿里云 OCR API 配置 access_key_id = 'your_access_key_id' access_key_secret = 'your_access_key_secret' region_id = 'cn-shanghai' product_name = 'ocr' domain = 'ocr.cn-shanghai.aliyuncs.com' # 初始化阿里云 client client = AcsClient(access_key_id, access_key_secret, region_id) # 读取本地图片文件 with open('captcha.png', 'rb') as f: image_data = f.read() # 构造 OCR API 请求 request = RecognizeCharacterRequest.RecognizeCharacterRequest() request.set_ImageURL(image_data) request.set_accept_format('json') # 调用 OCR API 进行识别 response = client.do_action(request) # 解析识别结果 result = response.decode('utf-8') print(result) ``` 在上面的示例代码中,`access_key_id` 和 `access_key_secret` 是您的阿里云账户的 Access Key ID 和 Access Key Secret,`region_id` 是 OCR 服务所在的地域,`product_name` 是 OCR 服务的产品名称,`domain` 是 OCR 服务的 API 域名。 需要注意的是,OCR 服务支持的图片格式有限,只支持 JPEG、JPG、PNG、BMP 等常见格式。另外,OCR 服务的免费配额较低,需要购买更多的调用次数才能满足大规模的识别需求。
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值