python scrapy框架爬取CNKI数据

最新推荐文章于 2024-07-04 15:32:07 发布

硼酸滴耳液

最新推荐文章于 2024-07-04 15:32:07 发布

阅读量3.9k

点赞数 1

分类专栏：爬虫 python scrapy 文章标签： scrapy 动态网页 python CNKI

本文链接：https://blog.csdn.net/weixin_40828973/article/details/78560181

版权

1、找到一个比官网更容易分析的接口，但貌似里头的信息不全，只有前76页的信息。

2、如何让scrapy按顺序爬取页面：

1）直接从网页中抓取下一页的url，不要自己定义：

# -*- coding: utf-8 -*-
import scrapy
import re
import time
from CNKISpider.items import CnkispiderItem
import urllib.request
from urllib.error import URLError
from lxml import etree


class CnSpider(scrapy.Spider):
    name = 'CN'
    allowed_domains = ['search.cnki.com.cn']
    start_urls = ['http://search.cnki.com.cn/Search.aspx?q=%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86&rank=citeNumber&cluster=all&val=&p=0',

最低0.47元/天解锁文章

硼酸滴耳液

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python scrapy框架爬取CNKI数据

1、找到一个比官网更容易分析的接口，但貌似里头的信息不全，只有前76页的信息。2、如何让scrapy按顺序爬取页面：1）直接从网页中抓取下一页的url，不要自己定义：# -*- coding: utf-8 -*-import scrapyimport reimport timefrom CNKISpider.items import CnkispiderItemimp
复制链接

扫一扫

专栏目录