python爬取中国知网(中国优秀硕士学位论文数据库)

笔者这几天受团队任务安排,需要写一份儿关于知网(中国优秀硕士学位论文数据库   入口:http://gb.oversea.cnki.net/kns55/brief/result.aspx?dbPrefix=CMFD

)的代码,主要是爬取论文的作者信息、论文副标题、学位授予年度、学校、引用频次等,例如在关键词搜索一下医疗保险:

表格的相关信息都可以爬取,点进每一篇文章以后,对应的关键词、副标题信息也可以爬取,只是笔者此次不需要设计下载原文,所以没有写相关代码,但是整个分析格式是一样的,可以根据关键词的爬取方式去寻找下载的url。对于这个内容的爬取,似乎对于访问的限制不太严格,笔者基本不考虑sleep时间,先贴出代码:

# -*- coding:utf-8 -*-
__author__ = 'TengYu'
import requests
import re
from lxml import etree
import json
import time
import xlwt
import sys
reload(sys)
sys.setdefaultencoding('utf8')

headers = {
'User-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:55.0) Gecko/20100101 Firefox/55.0',
    'Cookie':'Your-cookie'
}
class PageList(object):
    def __init__(self,maxpage):
        self.maxpage = maxpage

    def getUrl(self):
        f1 = open("title_4_4.txt",'w')
        f2 = open("subtitle.txt",'w')
        f3 = open("keywords_4_4.txt",'w')
        excel = xlwt.Workbook(encoding='utf-8')
        sheet = excel.add_sheet('sheet1')
        sheet.write(0, 0, '论文中文题目')
        sheet.write(0, 1, '论文作者')
        sheet.write(0, 2, '作者学校')
        sheet.write(0, 3, '学位授予年度')
        sheet.write(0, 4, '下载频次')
        sheet.write(0, 5, '引用频次')
        begin = 6
        while begin < 18:
            sheet.write(0, be
  • 1
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值