selenium火狐驱动_Python爬虫：用selenium 爬取知网文献基本信息

最新推荐文章于 2024-04-26 03:26:35 发布

weixin_39777488

最新推荐文章于 2024-04-26 03:26:35 发布

阅读量346

点赞数

文章标签： selenium火狐驱动 selenium谷歌浏览器驱动

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39777488/article/details/111299266

版权

本文档介绍了如何使用selenium自动化框架爬取知网中法学类CSSCI期刊文献的基本信息。首先，详细阐述了selenium的优点和准备工作，包括安装浏览器驱动。接着，演示了打开浏览器、定位并控制页面元素、筛选文献、获取文献数量和信息，并将数据保存到Excel文件的步骤。最后，提供了完整代码示例。

摘要由CSDN通过智能技术生成

selenium是浏览器自动化测试框架

官方文档：https://www.selenium.dev/selenium/docs/api/py/index.html

优点：selenium 不需要判断网页数据加载的方式，可以自动控制浏览器

缺点：它占用的资源会更多，爬取的效率也会降低，不过比我们手动操作还是快很多的

前几天有个小伙伴让我帮他写个代码，要求如下：

爬取知网文献
检索条件：学科类别勾选“社会科学一辑”所有“法学”类；
文献类型“期刊”，来源“cssci”，时间不限
主题词“地下空间”

我尝试了一下，电脑版搞不定(应该是我水平差)，但是手机版，可以简单实现这个功能

明确目的

流程：

用selenium (浏览器自动化测试框架)打开浏览器
输入检索关键词地下空间
筛选文献，把期刊来源设置为cssci
筛选学科(这部分后面再补充)
读取文献总数量，加载所有页面
读取每篇文献的标题、 作者、 摘要、 来源、引用、链接
保存成Excel文件

准备工作

在开始写代码之前，要保证两点：

1、你有Python的软件，安装好selenium的库了

2、安装对应的浏览器驱动

安装selenium 也很简单，在附件—>命令提示符 打开窗口，输入pip install selenium

关于安装对应的浏览器驱动，以 Chrome 浏览器，点击右上角点点点的那个符号，选择帮助 - 关于 Google Chrome

可以看到浏览器的版本号，然后我们去下载一个驱动

打开 https://npm.taobao.org/mirrors/chromedriver ，选择一个和你版本比较接近的安装文件

最低0.47元/天解锁文章

weixin_39777488

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。