python 自动登录网站_python实现网站的自动登录（selenium实现，带验证码识别）

最新推荐文章于 2024-07-01 15:24:57 发布

weixin_39731623

最新推荐文章于 2024-07-01 15:24:57 发布

阅读量621

点赞数

文章标签： python 自动登录网站

一、前言

这是鄙人在知乎写的第一篇文章，旨在总结一下近期所学，本文通过selenium工具实现工作所用网站的自动登录，下图为网站登录界面。

1、运行环境

操作系统：Windows10

python版本：python3.7

2、需要的python第三方库

1、selenium

安装：

pip install selenium

selenium是ThoughtWorks提供的一个强大的基于浏览器的开源自动化测试工具。支持的浏览器包括IE、Chrome和Firefox等。

另外还需要下载浏览器驱动，我这里用的是Google浏览器驱动。

Google浏览器驱动：官网链接

选择适配的浏览器版本和Windows系统，然后将下载得到的exe文件放到python的安装目录下。

2、baidu_api

安装：

pip install baidu_api

baidu_api是百度文字识别的OCR（Optical Character Recognition，光学字符识别），很多人可能会用tesseract库，但以测试的效果来看，百度的API识别效果更好。了解此库大家可以看官方文档。百度OCR-API官方文档

3、pillow

安装：

pip install pillow

pillow库是python最常用的第三方图像处理库

二、代码实现

1、导入第三方库

from selenium import webdriver

from PIL import Image

from aip import AipOcr

2、验证码的获取与处理

在进行验证码的获取之前，需要先实例化一个browser对象，代码如下：

browser = webdriver.Chrome() # 实例化对象

获取验证码的方法是通过实例化后的browser对象的查找元素方法的得到验证码元素并截图。下为网站源代码的验证码标签。

代码如下：

url = 'http://120.77.44.123/Login/Login.aspx?title=exit&recode=1'

browser.get(url)

png = browser.find_element_by_id('captcha_img') # 查找验证码元素

png.screenshot('capt.png') # 对验证码进行截图并保存

这是获得的验证码图片：

为了提高验证码的识别率，我们需要用pillow库对验证码进行图像处理。

处理方法如下：

1、先将图像转换成灰度模式

2、通过对阈值的调整使得多余的噪点消失

img = Image.open('capt.png')

img = img.convert('L') # P模式转换为L模式(灰度模式默认阈值127)

count = 165 # 设定阈值

table = []

for i in range(256):

if i < count:

table.append(0)

else:

table.append(1)

img = img.point(table, '1')

img.save('captcha1.png') # 保存处理后的验证码

处理效果如下：

可以通多对阈值的调整使得程序获得更高的识别率。

3、验证码的识别

处理完验证码后现在我们可以对其进行识别，调用baidu_api的通用文字识别接口，官方文档上有详细的调用方法，每日可以免费使用5000次，这个数字也够挥霍了。

# 识别码

APP_ID = '*** '

API_KEY = '***'

SECRET_KEY = '***'

# 初始化对象

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

# 读取图片

def get_file_content(file_path):

with open(file_path, 'rb') as f:

return f.read()

image = get_file_content('captcha.png')

# 定义参数变量

options = {'language_type': 'ENG', } # 识别语言类型，默认为'CHN_ENG'中英文混合

# 调用通用文字识别

result = client.basicGeneral(image, options) # 高精度接口 basicAccurate

for word in result['words_result']:

captcha = (word['words'])

print('识别结果：' + captcha)

return captcha

这是打印出的识别结果：

整体来看，识别效果还可以，当然这个验证码本身就不难。

4、自动键入信息并登录

这里用到的依然是browser对象的元素查找方法，代码如下：

browser.find_element_by_id('j_username').send_keys('***') # 找到账号框并输入账号

browser.find_element_by_id('j_password').send_keys('***') # 找到密码框并输入密码

browser.find_element_by_id('j_captcha').send_keys(captcha) # 找到验证码框并输入验证码

browser.find_element_by_id('login_ok').click() # 找到登陆按钮并点击

代码执行到这里，也就实现了网站的自动登录，下面是程序的完整代码。

三、完整代码

from selenium import webdriver

from PIL import Image

from aip import AipOcr

# 验证码的获取和处理

def get_captcha():

# 获取验证码图片

url = 'http://120.77.44.123/Login/Login.aspx?title=exit&recode=1'

browser.get(url)

png = browser.find_element_by_id('captcha_img')

png.screenshot('capt.png') # 将图片截屏并保存

# 处理验证码