Selenium爬取万方论文网站

最新推荐文章于 2024-09-19 09:40:33 发布

m0_43450539

最新推荐文章于 2024-09-19 09:40:33 发布

阅读量908

点赞数

文章标签： selenium python

本文链接：https://blog.csdn.net/m0_43450539/article/details/115999317

版权

本文介绍了一个利用Selenium Python库爬取万方数据网站上期刊、会议和学位论文信息的过程。通过定义save_to_json、get_massages和search三个函数，实现了数据抓取与保存。首先模拟点击专业检索按钮，输入筛选条件，然后逐页获取论文内容并保存到不同的JSON文件中。每个页面最多显示20篇论文，通过XPath表达式('.//*[@class="next"]')进行页面跳转。

摘要由CSDN通过智能技术生成

目标网站为https://s.wanfangdata.com.cn/advanced-search/paper

一共有三个函数，save_to_json，get_message，search。

def save_to_json(d,address,type):保存一个字典到相应json文件中。d为要保存的dict对象。address为保存路径文件夹。type为论文类型,‘qk’代表期刊论文，‘hy’代表会议论文，‘xw’代表学位论文。

def get_massages(nums,results):循环获取results中的nums个论文信息并调用save_to_json保存在json文件中。（这里我是每获取一个论文就保存一次）

def search(sums,keywords):根据输入的keywords和sums实现页面跳转和预备工作，然后调用get_massage获取每一页论文内容。
在这里插入图片描述先模拟点击专业检索按钮
driver.find_element_by_xpath(’.//*[@class=“tab-item”]’).click()