python使用selenium爬取InCites中journal数据

本文介绍如何利用Python的Selenium库爬取InCites中的期刊数据。首先,通过设置Firefox配置文件自动下载文件,然后通过Selenium打开网页并等待元素加载。接着,获取年份和分类信息,遍历所有组合,点击下载数据。当无法选择类别时,将错误信息写入文件。
摘要由CSDN通过智能技术生成

  • selenium的基本使用方法:

感谢博主静觅的文章,里面有详细的python中selenium的用法。需要提醒的是implicitly_wait()的用法:设置的隐性等待时间是适用全局的,因此值不宜设置太大,会严重拖慢爬虫程序的速度。

  • 关于selenium实践时的二三问题:

任务目标是爬取每一年的每个分类的journal数据,因此就有两个重要的列表需要爬取,年份列表和分类列表。
2.1  时间列表的定位
虽然列表用find_elements方法很容易获取到一个大列表,但是这种操作的弊端在与很容易遇到在遍历时某个元素不在DOM资源中的异常。这里给出的解决方法是用Xpath 每次定位到具体的某个元素,而不是获取列表来进行遍历。
2.2 分类列表的定位
分类列表的获取我在实验时发现一个很神奇的现象,在程序中第一次获取的时候是一个长度为227的列表,经过一番操作之后列表长度居然变化了,变...化...了...,必须经历了一些操作才会变化,并且重新刷新也没有办法改正。不仅大小变化了,列表的顺序也有所不同。由于对网页了解程度不够,因此没有分析出到底原因在哪里。但是解决方法还是有的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值