selenium
调取浏览器来访问网站,获取网站的相关信息,除了淘宝、京东这类爬取数据难搞,其他都还好,今天我们看下如何实现这类代码逻辑,
安装库包
// 利用安装pip安装,下面这个是一个浏览器编写Python代码的编辑器,非常好用,不用这个也可以
pip install jupyter
// 打开 jupyter
jupyter notebook
1、下载selenium模块:
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium
或者在pycharm中下载
2、安装浏览器驱动
(1)、Google浏览器驱动:http://npm.taobao.org/mirrors/chromedriver/86.0.4240.22/
注:淘宝数据来源,不需要翻墙就可以访问,注意自己谷歌浏览器和驱动版本号的问题,把下载好的chromedriver.exe放到python安装路径的scripts目录中即可,
(2)、firefox浏览器驱动:
selenium3默认支持的webdriver是Firfox,而Firefox需要安装geckodriver
下载链接:https://github.com/mozilla/geckodriver/releases
换起浏览器
from selenium import webdriver
import time
google_path = r"C:\Users\Administrator\Downloads\chromedriver_win32-86\chromedriver.exe"
option = webdriver.ChromeOptions()
option.binary_location = "C:/soft/chrome/ChromeCore/ChromeCore.exe" # binary_location属性指定Chrome启动文件
option.add_argument('--no-sandbox')
option.add_argument('--disable-dev-shm-usage')
option.add_argument('--headless')
driver = webdriver.Chrome(google_path, chrome_options=option)
driver.get('https://www.baidu.com')
print(driver.title)
time.sleep(15)
driver.quit()