selenium火狐驱动_Python爬虫:用selenium 爬取知网文献基本信息

本文档介绍了如何使用selenium自动化框架爬取知网中法学类CSSCI期刊文献的基本信息。首先,详细阐述了selenium的优点和准备工作,包括安装浏览器驱动。接着,演示了打开浏览器、定位并控制页面元素、筛选文献、获取文献数量和信息,并将数据保存到Excel文件的步骤。最后,提供了完整代码示例。
摘要由CSDN通过智能技术生成

selenium是浏览器自动化测试框架

官方文档:https://www.selenium.dev/selenium/docs/api/py/index.html

优点:selenium 不需要判断网页数据加载的方式,可以自动控制浏览器

缺点:它占用的资源会更多,爬取的效率也会降低,不过比我们手动操作还是快很多的

前几天有个小伙伴让我帮他写个代码,要求如下:

  • 爬取知网文献

  • 检索条件:学科类别勾选“社会科学一辑”所有“法学”类;

  • 文献类型“期刊”,来源“cssci”,时间不限

  • 主题词“地下空间”

我尝试了一下,电脑版搞不定(应该是我水平差),但是手机版,可以简单实现这个功能

94e31b5169a438f082c25ebc96015888.gif

明确目的

流程:

  • selenium (浏览器自动化测试框架)打开浏览器

  • 输入检索关键词地下空间

  • 筛选文献,把期刊来源设置为cssci

  • 筛选学科(这部分后面再补充)

  • 读取文献总数量,加载所有页面

  • 读取每篇文献的标题作者摘要来源引用链接

  • 保存成Excel文件

e6f9f52f995779f62b3c517236633164.png

准备工作

在开始写代码之前,要保证两点:

1、你有Python的软件,安装好selenium的库了

2、安装对应的浏览器驱动

安装selenium 也很简单,在附件—>命令提示符 打开窗口,输入pip install selenium

关于安装对应的浏览器驱动,以 Chrome 浏览器,点击右上角点点点的那个符号,选择帮助 - 关于 Google Chrome

c4bc1cc2a062bb69c222cf189829881d.png

可以看到浏览器的版本号,然后我们去下载一个驱动

08bd83c63c55b26ff32757f6d4572c52.png

打开 https://npm.taobao.org/mirrors/chromedriver ,选择一个和你版本比较接近的安装文件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值