我是如何分析CNKI上所有关于“齿轮”文章的?(一)CNKI爬虫记

作为一个二流大学的不会搞科研的二流穷逼博士,科研还是要搞一点,专业是齿轮,所以就想看看CNKI上关于“齿轮”的文章信息。有点python小基础,写个python 爬虫小工具,共享在Github上,各位需要自取,地址:https://github.com/spartajet/...

首先感谢这位大神的博客http://www.qiuqingyu.cn/2017/...,我是参照着大神代码写的,读了大神的代码,我自己写了一个,主要改进如下:

  1. 改为面向对象
  2. 改进了比如作者,年份,杂志,摘要的算法
  3. 数据存储在mysql中,用的批量插入,有利于后期的统计分析
  4. fix some bugs

做爬虫,首先要找个好的API,学校订购了CNKI的服务,但是从正常的页面,我没有发现好用的API,所以用的还是上面大神的API,地址:http://search.cnki.com.cn/def...

搜索页面如下图:

clipboard.png

这个页面可以查到文章标题,部分摘要(不使用),文章来源,时间,文章类型(期刊、会议、硕士、博士)等

文章详情页面如下图:

clipboard.png

这个页面可以获取到完整的摘要,但是没有关键字(比较遗憾)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值