1、Selenium介绍
简单来说吧,Selenium可以控制你的浏览器,模仿人浏览网页,从而获取数据,自动操作等,也正因为能自动打开浏览器,不需要判断网页是静态还是动态的,数据加载的方式等等,所以比其他方法获取网页数据要简单得多。缺点嘛…因为要打开浏览器并控制它,所以和我们以前学的爬虫相比,它占用的资源会更多,爬取数据的效率也会有所降低,不过至少比我们手动操作还是快很多的。
2、安装Selenium
pip install selenium
selenium还需要安装相应浏览器的驱动才能控制浏览器,我以谷歌浏览器为例(建议大家使用谷歌)说下如何在浏览器中安装
-
先检查浏览器的版本号
-
下载插件
我的谷歌浏览器版本号为86.0.4240.183,然后我们打开https://npm.taobao.org/mirrors/chromedriver这个网站下载相应或者接近的版本,将下载好的 chromedriver_win32.zip 解压缩得到 chromedriver.exe,将它放到 Python 安装目录的 Scripts 文件夹里。
Tips:我们在命令行里输入 where python 命令并回车即可找到 Python 所在目录,如果使用的是Anaconda,则将其放到安装目录中的 Scripts文件夹里
3、使用selenium打开浏览器
from selenium import webdriver #从Selenium导入webdriver(驱动)
browser = webdriver.Chrome() #选择谷歌浏览器打开
4、获取网页源代码
既然都打开浏览器,我们就试着获取一下代码
browser = webdriver.Chrome() #选择谷歌浏览器打开
browser.get('https://weibo.com/') #打开微博网页
print(browser.page_source) #打印出网页源代码
browser.quit() #关闭浏览器
下一次我将介绍如何用BeautifulSoup库处理通过selenium获取的数据。本次分享就到这,谢谢大家!