前言
selenium和phantomjs相识在永远漆黑的服务器,越来越优秀的selenium最终还是放弃了不常打理自己的phantomjs,投入了越来越完美的大众情人chrome的怀抱。
使用场景
之前有动态网页的爬取需求都是通过selenium+phantomjs解决的,今天在测试之前爬虫的时候看到如果提示:
Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead
warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless '
简单来说就是:selenium高版本对于phantomjs已经不再支持,请使用无头浏览器。
于是服务器上一直用phantomjs的我,也替换成了chrome,因为chrome 59版本更新的新特性Headless mode
。
核心代码如下:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
# chrome_options.binary_location = '/opt/google/chrome/chrome'
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get("http://www.baidu.com")
driver.save_screenshot("baidu.png")
书读得越多而不加思考,你就会觉得你知道得很多;而当你读书思考得越多的时候,你就会越清楚地看到,你知道得还很少。--伏尔泰