背景
模拟网页浏览并根据Excel提供数据作为过滤条件搜索并抓取需要的内容,再自动填入Excel表格完成自动化过程。
准备
pip install selenium
pip install openpyxl
很多人听到的Selenium是Web应用自动化测试框架,其实Selenium仅仅是实现自动化浏览器操作,测试的部分需要开发人员编写测试代码完成。Python下Selenium的文档可以参照https://pypi.org/project/selenium/。
针对于不同的浏览器,需要安装对应的Web Driver,可以从https://sites.google.com/a/chromium.org/chromedriver/downloads页面根据版本下载拷贝到浏览器安装路径。
代码
库引用
#import selenium libraries
from selenium importwebdriverfrom selenium.webdriver.common.by importByfrom selenium.webdriver.support.ui importWebDriverWaitfrom selenium.webdriver.support importexpected_conditions as EC#import excel library
from openpyxl importload_workbook#import time library
import time
等待页面加载完,此过程通过代码检测报告元素是否出现,其中200的位置填入等待时间(单位秒),程序会自动循环检测直到超时。
#wait for report inital loading
defwaitLoad(driver):