判断页面相似度的python实现

最新推荐文章于 2024-07-11 10:42:19 发布

亦难亦安

最新推荐文章于 2024-07-11 10:42:19 发布

阅读量2.3k

点赞数 3

分类专栏：软件测试文章标签： lxml selenium

本文链接：https://blog.csdn.net/nicezheng_1995/article/details/86007789

版权

本文介绍了使用Python结合selenium动态获取DOM树结构，并利用lxml解析HTML获取所有元素的xpath路径，旨在处理Vue.js框架生成的动态页面。通过保存叶子节点的xpath，后续计划通过最长公共子序列算法计算页面相似度。

摘要由CSDN通过智能技术生成

判断页面相似度的python实现：

两天时间实现了一小部分，大量其实是xpath解析以及字符串和文件操作，性能还需要改善，下面说一下步骤：

动态获取DOM树结构：

因为主要是解析Vue.js框架写的，DOM树是动态生成的，还有Ajax请求。所以不能通过传统的requests.get(url)直接获取，在网上看了很多方法，有用无头浏览器的，还有好多记不清了，因为我是要为测试服务，所以我用了selenium登陆后获取cookies,再通过cookies加入获取动态DOM树。

import lxml
import time
from lxml import etree
from selenium import webdriver

driver = webdriver.Chrome()
#手动登录部分
driver.get('http://localhost:9527/#/login?redirect=%2Fuser%2Fuser')
driver.find_element_by_xpath("//*[@id='app']/div/form/div[2]/div/div/input").send_keys('')
driver.find_element_by_xpath("//*[@id='app']/div/form/div[3]/div/div/input").send_keys('')
driver.find_element_by_xpath("//*[@id='app']/div/form/button").click()
time.sleep(2)
cookie_list = driver.get_cookies()
#cookies可以在Chrome中摁F12找到，也可以打印上一步
for item in cookie_l