selenium是浏览器自动化测试框架
官方文档:https://www.selenium.dev/selenium/docs/api/py/index.html
优点:selenium 不需要判断网页数据加载的方式,可以自动控制浏览器
缺点:它占用的资源会更多,爬取的效率也会降低,不过比我们手动操作还是快很多的
前几天有个小伙伴让我帮他写个代码,要求如下:
爬取知网文献
检索条件:学科类别勾选“社会科学一辑”所有“法学”类;
文献类型“期刊”,来源“cssci”,时间不限
主题词“地下空间”
我尝试了一下,电脑版搞不定(应该是我水平差),但是手机版,可以简单实现这个功能
明确目的
流程:
用
selenium
(浏览器自动化测试框架)打开浏览器输入检索关键词
地下空间
筛选文献,把期刊来源设置为
cssci
筛选学科(这部分后面再补充)
读取文献总数量,加载所有页面
读取每篇文献的
标题
、作者
、摘要
、来源
、引用
、链接
保存成Excel文件
准备工作
在开始写代码之前,要保证两点:
1、你有Python的软件,安装好selenium
的库了
2、安装对应的浏览器驱动
安装selenium
也很简单,在附件—>命令提示符
打开窗口,输入pip install selenium
关于安装对应的浏览器驱动,以 Chrome 浏览器,点击右上角点点点
的那个符号,选择帮助 - 关于 Google Chrome
可以看到浏览器的版本号,然后我们去下载一个驱动
打开 https://npm.taobao.org/mirrors/chromedriver ,选择一个和你版本比较接近的安装文件