python使用selenium爬取InCites中journal数据

最新推荐文章于 2024-09-18 20:39:31 发布

Neptune_97

最新推荐文章于 2024-09-18 20:39:31 发布

阅读量846

点赞数

分类专栏： Python 文章标签： python selenium 爬虫 InCites

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Neptune1997/article/details/77744407

版权

本文介绍如何利用Python的Selenium库爬取InCites中的期刊数据。首先，通过设置Firefox配置文件自动下载文件，然后通过Selenium打开网页并等待元素加载。接着，获取年份和分类信息，遍历所有组合，点击下载数据。当无法选择类别时，将错误信息写入文件。

摘要由CSDN通过智能技术生成

selenium的基本使用方法：

感谢博主静觅的文章，里面有详细的python中selenium的用法。需要提醒的是implicitly_wait()的用法：设置的隐性等待时间是适用全局的，因此值不宜设置太大，会严重拖慢爬虫程序的速度。

关于selenium实践时的二三问题：

任务目标是爬取每一年的每个分类的journal数据，因此就有两个重要的列表需要爬取，年份列表和分类列表。

2.1 时间列表的定位

虽然列表用find_elements方法很容易获取到一个大列表，但是这种操作的弊端在与很容易遇到在遍历时某个元素不在DOM资源中的异常。这里给出的解决方法是用Xpath 每次定位到具体的某个元素，而不是获取列表来进行遍历。

2.2 分类列表的定位

分类列表的获取我在实验时发现一个很神奇的现象，在程序中第一次获取的时候是一个长度为227的列表，经过一番操作之后列表长度居然变化了，变...化...了...，必须经历了一些操作才会变化，并且重新刷新也没有办法改正。不仅大小变化了，列表的顺序也有所不同。由于对网页了解程度不够，因此没有分析出到底原因在哪里。但是解决方法还是有的。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。