【背景】
前几天用Selenium模拟百度登录,前面用户名、密码输入登录以及滑块移动都搞定了,最后卡在图片回正那里,后来在网上查了很多资料,也没有找到解决的办法,有小伙伴建议试试爬虫新规Playwright,反正也没其它解决办法,那就用Playwright试试看。
一、Playwright介绍
Playwright是2021年微软开源的一个项目「playwright-python」。针对 Python 语言的纯自动化工具,它可以通过单个API自动执行 Chromium,Firefox 和 WebKit 浏览器,同时支持以无头模式、有头模式运行。并且最牛的功能是可以通过录制自动生成代码,就是打开录制功能后,用鼠标在页面上操作,它可以根据你的操作生成相应的代码,而且这个代码可直接运行。
下面我就来试试这个牛逼克拉斯的功能。
二、Playwright安装
安装playwright
pip install playwright
安装内置浏览器
python -m playwright install
安装很简单,这样就按照成功了,可以通过下面的命令查看一下是否安装成功
playwright -V
三、HelloWorld级别代码,打开百度页面
代码如下:
from playwright.sync_api import sync_playwright
import time
with sync_playwright() as p:
browser = p.chromium.launch(headless=False)
page = browser.new_page()
page.goto('https://www.baidu.com')
page.screenshot(path=f'screenshot-{browser.version.title()}.png')
time.sleep(10)
browser.close()
运行后效果是这样的:
四、通过录制生成代码
调用下面的命令,打开录制功能
playwright codegen --target python -o playwright-codegen.py -b cr https://www.baidu.com
-o:对应的是生成的代码文件
-b:是打开流浪器后默认打开的网页
运行后,页面是这样的,可以暂停
我开始操作,边操作边生成代码;输入用户名、密码后,点击登录,竟然没有打开滑块验证页面,而是跳到了短信验证页面;于是我第二次重新录制,这一次更离谱,点登录后就直接登录了,短信验证和滑块验证页面都没有出现,清了缓存也是这样,看来还是得手动写代码才行。
生成的代码如下:
from playwright.sync_api import Playwright, sync_playwright, expect
def run(playwright: Playwright) -> None:
browser = playwright.chromium.launch(headless=False)
context = browser.new_context()
page = context.new_page()
page.goto("https://www.baidu.com/")
page.get_by_role("link", name="登录").click()
page.get_by_placeholder("手机号/用户名/邮箱").click()
page.get_by_placeholder("手机号/用户名/邮箱").fill("xxxxxxxx")
page.get_by_placeholder("手机号/用户名/邮箱").press("Tab")
page.get_by_placeholder("密码").fill("xxxxxxxx")
page.get_by_role("button", name="登录").click()
page.get_by_role("button", name="发送验证码").click()
page.locator("#TANGRAM__45__input_label_vcode").click()
page.locator("#TANGRAM__45__input_vcode").fill("128370")
page.get_by_role("button", name="确定").click()
page.close()
# ---------------------
context.close()
browser.close()
with sync_playwright() as playwright:
run(playwright)
代码运行后成功登录,里面的短信验证根本没有用上,难道我几天没有用,百度的登录变简单了么
别的不说,这个代码自动生成功能真是强大,墙裂推荐~
五、手写代码实现登录
还是不甘心,没有验证滑块登录的功能,于是,我开始手写代码,实现百度登录;
关键代码:
with sync_playwright() as p:
browser = p.chromium.launch(headless=False)
page = browser.new_page()
page.goto('https://www.baidu.com')
self.login(page)
time.sleep(5)
fly_button = page.locator('xpath=/html/body/div[11]/div[1]/div/div[2]/div[2]').bounding_box()
fly_box = page.query_selector('xpath=/html/body/div[11]/div[1]/div/div[2]/div[1]').bounding_box()
page.mouse.move(fly_button['x'] + fly_button['width']/2, fly_button['y'] + fly_button['height']/2)
page.mouse.down()
print(fly_box['width'], fly_box['height'])
width = fly_box['width']
i = 0
step = 5
while i < width:
i = i + step
x = fly_button['x'] + fly_button['width']/2 + i
y = fly_button['y'] + fly_button['height']/2
print(x, y)
page.mouse.move(x, y)
time.sleep(2)
filepath = self.filename + 'scroll' + str(i) + '.png'
print(filepath)
self.save_pic(page, filepath)
angle = self.get_angle(filepath)
print('current angle is : %s', angle)
if math.fabs(angle) < 3:
break
print('scroll complete')
page.mouse.up()
图片截屏代码:
img = page.locator("xpath=/html/body/div[11]/div[1]/div/div[1]")
img.screenshot(path=file, animations='disabled', scale='css')
运行后,期待的滑块验证终于出现了:
但是问题还是没有解决,截屏的图片都是一样的
主要问题还是截屏的时候鼠标松开了,滑块又回到了原位
各位大佬有什么好办法,在评论里面留言给我吧