Python+selenium控制Edge获取网页信息

Python+selenium控制Edge获取网页信息

本人Python新入门小白,由于最近项目需要,需要使用Edge去获取一些网页信息,为啥一定要用Edge而不用大家普遍使用的Chrome去弄是因为公司系统环境所决定,没办法,只能研究Edge。不过查了好多网上资料,没有一篇是比较全面能一次性解决问题的,要么就是没有解释清楚关键部分,导致代码报错。经过几天的综合测试研究下来,终于完成了一些功能。

设备环境
windows10+python3.8+Anaconda(由于公司电脑,只能支持此软件,由于平常都用pycharm,用不太习惯Anaconda,研究了一段时间)+Edge

功能描述
获取网页内的信息,此处用获取网页内某超链接地址作为举例

准备工作
1.安装相应python包,此处用到selenium, msedge.selenium_tools(使用pip命令安装,会python的都会吧…,建议使用国内镜像安装,速度快点)
2.下载Edge webdriver,这个网上很容易找到怎么下载,这边就不复述了

代码

from selenium import webdriver #导入网页控制器
import selenium.webdriver.edge.options #导入edge的选项控制器
#导入msedge的功能,就是此处研究了很久,很多文章都提到要用EdgeOptions,但文章内并没有导入此类关键信息的提醒
from msedge.selenium_tools import Edge, EdgeOptions 
from selenium.webdriver.common.by import By #用于定位class元素
from selenium.webdriver.support.ui import WebDriverWait #等待
from selenium.webdriver.support import expected_conditions as EC #执行条件
#import datetime #用来计算程序运行时间,测试完就隐藏起来了

#st=datetime.datetime.now() #获取程序运行的起始时间

def GetUrl():
    edge_options = EdgeOptions()
    edge_options.use_chromium = True #初始化Edge
    edge_options.headless = True #静默运行,网页不显示
 
 #公司电脑,没权限在python安装目录里存放webdriver,就自己个儿建立个夹子放,所以在调用的时候,要引用到那个存放目录上
    driver=Edge(executable_path="C:\Python\edgedriver_win64\msedgedriver.exe",options=edge_options)
    
    driver.get('链接地址')
    
    try:
        element = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.XPATH, "//a[contains(.,'关键字')]")) #获取带有a标签的inntertext中的关键字,并给与网页最大10秒的加载时间
        )
        urls=driver.find_elements_by_xpath("//a[contains(.,'关键字')]") #找到此关键字所在a标签
        for url in urls:
            return(url.get_attribute("href")) #获取其中所有超链接地址
    finally:
        driver.quit()



if __name__=='__main__':
    print(GetUrl())
    #ed=datetime.datetime.now() #获取程序结束时间
	#print((ed-st).seconds)    #计算整个程序完成时间

至此,完成了网页提取信息的功能。

Python Selenium是一个自动化测试工具,用于模拟用户在Web应用程序中的操作。下面是搭建Python Selenium环境的步骤: 1. 安装Python:首先,需要从Python官方网站下载并安装Python解释器。选择最新版本的Python,并按照安装向导完成安装过程。 2. 安装pip:pip是Python的软件包管理器,用于安装第三方库。在安装Python过程中,一般会默认安装pip。可以在命令行中输入"pip"来验证其是否成功安装。 3. 安装Selenium库:使用pip命令来安装Selenium库,命令如下: ``` pip install selenium ``` 4. 下载Web驱动程序:Selenium需要与浏览器进行交互,因此需要下载相应的Web驱动程序。不同浏览器需要不同的驱动程序。常用的浏览器驱动如下: - Chrome: ChromeDriver - Firefox: GeckoDriver - Safari: SafariDriver - Edge: MicrosoftWebDriver 下载对应浏览器的Web驱动程序,并将其添加到系统路径中,以便Selenium能够找到驱动程序。 5. 编写Python脚本:使用任何文本编辑器创建一个Python脚本,导入Selenium库,并编写自动化测试的代码逻辑。例如,打开浏览器、访问网页、查找元素、输入文本等等。 6. 运行脚本:在命令行中运行Python脚本,确认环境配置正确并且脚本能够执行。 以上就是搭建Python Selenium环境的主要步骤。通过按照上述步骤安装所需的软件和库,并编写脚本,就可以使用Python Selenium进行自动化测试。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值