通过xpath获取某个element:
img_element = driver.find_element_by_xpath('//img[@class="a-image-img"]')
获取element的某个属性值:
img_url = img_element.get_attribute('data-src')
获取element的文本内容:
content = img_element.text
driver的一些设置:
options = webdriver.ChromeOptions()
# 设置为开发者模式,防止网站识别
options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_experimental_option("useAutomationExtension", False)
# 加载驱动程序
# driver = webdriver.Chrome(executable_path='./chromedriver', options=options)
driver = webdriver.Chrome(options=options)
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
"source": """
Object.defineProperty(navigator, 'webdriver', {
get: () => undefined
})
"""
})
# 设置页面超时时间
driver.set_page_load_timeout(60)
driver.set_script_timeout(60)
driver设置headless:
cp = Options()
cp.add_argument('--headless')
# linux下需要加下面两个参数才能正常运行Chrome
cp.add_argument('--disable-gpu')
cp.add_argument('--no-sandbox')
driver = webdriver.Chrome(options=cp)
driver退出:
driver.close()
driver.quit()
WebDriverWait,这里发给别人的总结:here
停止加载的方法:
有时请求一个页面,由于部分资源响应慢,selenium可能会报timeout的错误,此时可以用下面的方法停止加载:
try:
driver.get(url)
except Exception as e:
driver.execute_script('window.stop ? window.stop() : document.execCommand("Stop");')
参考:here