scrapy文档案例源码

最新推荐文章于 2021-05-17 21:21:32 发布

thginWalker

最新推荐文章于 2021-05-17 21:21:32 发布

阅读量398

点赞数

分类专栏：网络爬虫 # Scrapy 文章标签： scrapy

网络爬虫同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

Scrapy

5 篇文章 0 订阅

订阅专栏

前言

针对http://quotes.toscrape.com/进行爬取的源码案例，方便学习和研究。

CSS提取

# -*- coding: utf-8 -*-
import scrapy


class ToScrapeCSSSpider(scrapy.Spider):
    name = "toscrape-css"
    start_urls = [
        'http://quotes.toscrape.com/',
    ]

    def parse(self, response):
        for quote in response.css("div.quote"):
            yield {
                'text': quote.css("span.text::text").extract_first(),
                'author': quote.css("small.author::text").extract_first(),
                'tags': quote.css("div.tags > a.tag::text").extract()
            }

        next_page_url = response.css("li.next > a::attr(href)").extract_first()
        if next_page_url is not None:
            yield scrapy.Request(response.urljoin(next_page_url))

xpath提取

# -*- coding: utf-8 -*-
import scrapy


class ToScrapeSpiderXPath(scrapy.Spider):
    name = 'toscrape-xpath'
    start_urls = [
        'http://quotes.toscrape.com/',
    ]

    def parse(self, response):
        for quote in response.xpath('//div[@class="quote"]'):
            yield {
                'text': quote.xpath('./span[@class="text"]/text()').extract_first(),
                'author': quote.xpath('.//small[@class="author"]/text()').extract_first(),
                'tags': quote.xpath('.//div[@class="tags"]/a[@class="tag"]/text()').extract()
            }

        next_page_url = response.xpath('//li[@class="next"]/a/@href').extract_first()
        if next_page_url is not None:
            yield scrapy.Request(response.urljoin(next_page_url))

后记

针对此刻的水平而言，多加了解提取方式和需求的案例，使用实例代码完成目前的研究，同时为日后深究打下基础。

thginWalker

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy文档案例源码

前言针对http://quotes.toscrape.com/进行爬取的源码案例，方便学习和研究。CSS提取# -*- coding: utf-8 -*-import scrapyclass ToScrapeCSSSpider(scrapy.Spider): name = "toscrape-css" start_urls = [ 'http...
复制链接

扫一扫