scrapy CrawlSpider 爬全站数据

瓦力冫

于 2018-06-05 17:48:39 发布

阅读量898

点赞数

分类专栏： scrapy

本文链接：https://blog.csdn.net/fox64194167/article/details/80584891

版权

scrapy 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders import CrawlSpider, Rule
# from scrapy.linkextractors.sgml import SgmlLinkExtractor
from scrapy.linkextractors import LinkExtractor

from CrawlSpiderTest.items import CrawlspidertestItem

class CsdnarticleSpider(CrawlSpider):
    name = 'csdnArticle'
    allowed_domains = ['blog.csdn.net']
    start_urls = ['https://blog.csdn.net/u012150179/article/details/11749017']

    pagelink = LinkExtractor(allow=('/u012150179/article/details'))

    rules = [
        Rule(pagelink, callback='parse_item', follow=True)
    ]

    def parse_item(self, response):
        item = CrawlspidertestItem()
        item['title'] = response.css('.title-article::text').extract_first()
        yield item

    # def parse(self, response):
    #     pass

http://www.waitingfy.com/archives/3937