conda安装后需要安装对应的浏览器驱动
#页面加载与关闭方式
def start_crawler():
url = "http://www.cjh.com.cn/sqindex.html"
# 浏览器设置
option = webdriver.FirefoxOptions()
option.add_argument('--headless') # 设置静默模式
# 打开firefox浏览器
browser = webdriver.Firefox(options=option)
# print('加载主页...')
browser.get(url)
# 退出浏览器
browser.quit()
火狐浏览器的驱动geckodriver会遗留日志文件,可以用os进行删除
os.remove("geckodriver.log")
#标签定位与点击
应该是xpath方式最好用,批量获取标签也可以,获得list
info = browser.find_elements(By.XPATH, '//*[@id="sssqold"]/tr[*]')
标签点击
定位后直接调用该元素的click方法
browser.find_element(By.XPATH, '//*[@id="btn"]').click()
#选择框
定位后调用select_by_visible_text或者select_by_index方法
#填写文本
browser.find_element(By.XPATH, "path").send_keys("你要输入的文本内容")#输入内容
slctSea = Select(browser.find_element(By.XPATH, '//*[@id="ddl_sea"]'))
slctYear = Select(browser.find_element(By.XPATH, '//*[@id="ddl_year"]'))
slctYear.select_by_visible_text(year)
slctSea.select_by_index(seaIdx)
#获取文本内容
使用text