python 复制网页部分内容_Python网页内容Selenium抓取+Excel输出

本文介绍了如何使用Python的Selenium库模拟浏览器操作,根据Excel提供的数据筛选网页内容,并将抓取的数据自动填入Excel表格,实现自动化流程。首先安装selenium和openpyxl库,然后配置Web Driver。通过Selenium等待页面加载,选择下拉菜单,点击按钮等操作。接着读取Excel文件,遍历数据,根据XPath和CSS选择器获取网页元素,处理并保存到Excel。
摘要由CSDN通过智能技术生成

背景

模拟网页浏览并根据Excel提供数据作为过滤条件搜索并抓取需要的内容,再自动填入Excel表格完成自动化过程。

准备

pip install selenium

pip install openpyxl

很多人听到的Selenium是Web应用自动化测试框架,其实Selenium仅仅是实现自动化浏览器操作,测试的部分需要开发人员编写测试代码完成。Python下Selenium的文档可以参照https://pypi.org/project/selenium/。

针对于不同的浏览器,需要安装对应的Web Driver,可以从https://sites.google.com/a/chromium.org/chromedriver/downloads页面根据版本下载拷贝到浏览器安装路径。

代码

库引用

#import selenium libraries

from selenium importwebdriverfrom selenium.webdriver.common.by importByfrom selenium.webdriver.support.ui importWebDriverWaitfrom selenium.webdriver.support importexpected_conditions as EC#import excel library

from openpyxl importload_workbook#import time library

import time

等待页面加载完,此过程通过代码检测报告元素是否出现,其中200的位置填入等待时间(单位秒),程序会自动循环检测直到超时。

#wait for report inital loading

defwaitLoad(driver):

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值