【爬虫——00001】favorite scrapy tutorial

最新推荐文章于 2024-10-08 14:17:48 发布

毛毛是一只狗

最新推荐文章于 2024-10-08 14:17:48 发布

阅读量132

点赞数

分类专栏：《爬虫》文章标签：爬虫 python

本文链接：https://blog.csdn.net/weixin_43270713/article/details/106518770

版权

《爬虫》专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Declaration

: 以下代码测试过没有问题,时间点20200603***

create project

scrapy startproject tutorial

创建的项目目录包含以下内容：在做A时可以把文件目录放到问题里,看是否能说出每个文件是做什么的?

我的第一只小蜘蛛

quotes_spider.py 下 tutorial/spiders 项目中的目录：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"           

    def start_requests(self):
        urls = [
            'http://quotes.toscrape.com/page/1/',
            'http://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)

name ：标识蜘蛛。它在一个项目中必须是唯一的，也就是说，不能为不同的蜘蛛设置相同的名称。

start_requests() ：必须返回一个ITable of requests（您可以返回一个请求列表或编写一个生成器函数），蜘蛛将从中开始爬行。随后的请求将从这些初始请求中依次生成。

parse() ：将调用的方法，用于处理为每个请求下载的响应。响应参数是的实例 TextResponse 它保存页面内容，并有进一步有用的方法来处理它。

这个 parse() 方法通常解析响应，将抓取的数据提取为dict，并查找新的URL以跟踪和创建新的请求。（ Request 从他们那里。

引擎盖下面发生了什么？(对上段代码运行原理的说明)

Scrapy安排了 scrapy.Request 返回的对象 start_requests 蜘蛛的方法。在接收到每个响应时，它实例化 Response 对象并调用与请求关联的回调方法（在本例中，为 parse 方法）将响应作为参数传递。

上段代码可以简写,如下: (以下代码测试过没有问题,时间点20200603)

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
        'http://quotes.toscrape.com/page/2/',
    ]

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)