体验了一波selenium爬取某音乐网站数据数据的快乐,决定将基本过程做个记录,避免下次搜索相关知识找不到的情况,也改改自己懒惰的毛病,养成写博客的习惯
selenium:模拟真实的浏览器环境,有些网站的数据是加密的,不能直接通过请求后台数据的方式获取,于是我们可以利用脚本测试工具selenium来控制浏览器从而爬取数据。
一、下载Chorme浏览器对应版本的chromedriver
(敲黑板!!!一定要保证对应版本)
不知道自己谷歌浏览器的版本可以用以下方式查看:
- 在浏览器的地址栏输入chrome://version,敲回车键
- 点击进入浏览器右上角的菜单/帮助/关于Google Chrome
下载地址:
- https://npm.taobao.org/mirrors/chromedriver
下载完后将压缩包解压,把文件夹里面的chromedriver.exe分别复制一份放在在python安装的根目录和谷歌浏览器的安装目录Application目录下
配置path环境变量:
把谷歌浏览器安装包的Application目录路径添加到电脑的环境变量path中(以下是我的电脑里面的路径)
C:\Users\Administrator\AppData\Local\Google\Chrome\Application
安装selenium包
pip install selenium
在python导入selenium包
简单使用
以浏览器的方式打开一个链接
# 打开chrome浏览器(需提前装好chromedriver)
browser = webdriver.Chrome()
print("opening...")
# 以浏览器窗口的形式打开url页面
browser.get("https://www.baidu.com")
更多的使用在下一篇更新…