Python带你看文献—xpath抓取知网文献!

最新推荐文章于 2024-05-07 07:07:06 发布

PythonJavaPHP

最新推荐文章于 2024-05-07 07:07:06 发布

阅读量3k

点赞数 1

分类专栏： Python 文章标签： Python

本文链接：https://blog.csdn.net/pythonjavaphp/article/details/103180797

版权

在做学术的道路上，陪伴我们的不是对象（可能没有），不是家人（可能不在身边），甚至不是头发（日减稀疏），始终不离不弃的肯定是浩如烟海的论文。查阅文献常用的网站当属知网，为了实现快速翻阅、应用有类似纸质书体验的效果，我们今天就用Python来翻一翻知网上顶级期刊的文献目录。

一、案例简介

我们进入中国知网网站，点击出版物检索，选择期刊导航，输入《会计研究》。

就进入了目标网址：https://navi.cnki.net/knavi/JournalDetail?pcode=CJFD&pykm=KJYJ。我们的目标是爬取2018年全年的文章题目和作者，对于没有作者的文章题目，如征文启事，则予以删除。我们先对单期期刊进行处理，再将其扩展到12期期刊。

一、案例简介

我们进入中国知网网站，点击出版物检索，选择期刊导航，输入《会计研究》。

二、案例实操

（一）单个期刊

我们打开开发者模式，选择network，在name中寻找到网页信息，发现其网页获取方式是post，接着我们模拟人工浏览网页的行为写入headers对应的信息：url，request headers和querystring parameters。

import requests #引入requests库爬取网页代码import json #引入json库处理data列表中的内容 url='https://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=01&pykm=KJYJ&pageIdx=0&pcode=CJFD' headers={ 'Accept': '*/*', 'Accept-Encoding':'gzip, deflate, br', 'Accept-Language':'zh-CN,zh;q=0.9', 'Connection':'keep-alive', 'Content-Length':'0', 'Cookie':'Ecp_notFirstLogin=lGQkVH; Ecp_ClientId=7190918101000734970;cnkiUserKey=bb2d2b7c-5a96-65a9-7fa0-e25390f23ca9;LID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0&

最低0.47元/天解锁文章

PythonJavaPHP

关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
Python带你看文献—xpath抓取知网文献!

在做学术的道路上，陪伴我们的不是对象（可能没有），不是家人（可能不在身边），甚至不是头发（日减稀疏），始终不离不弃的肯定是浩如烟海的论文。查阅文献常用的网站当属知网，为了实现快速翻阅、应用有类似纸质书体验的效果，我们今天就用Python来翻一翻知网上顶级期刊的文献目录。一、案例简介我们进入中国知网网站，点击出版物检索，选择期刊导航，输入《会计研究》。就进入了目标网址：ht...
复制链接

扫一扫