在Scrapy中启动shell来调试

最新推荐文章于 2024-08-22 16:33:52 发布

唐大麦

最新推荐文章于 2024-08-22 16:33:52 发布

阅读量2.8k

点赞数

分类专栏： ● Python 文章标签：调试爬虫 scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/soonfly/article/details/78616480

版权

● Python 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

在Scrapy中写爬虫时，有时想在spider运行到某个位置时暂停，查看被处理的response，以确认response是否是期望的。

这可以通过 scrapy.shell.inspect_response 函数来实现。

以下是如何在spider中调用该函数的例子:

import scrapy

class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls = [
        "http://example.com",
        "http://example.org",
        "http://example.net",
    ]

    def parse(self, response):
        # We want to inspect one specific response.
        if ".org" in response.url:
            from scrapy.shell import inspect_response
            inspect_response(response, self)

        # Rest of parsing code.

当运行spider时，您将得到类似下列的输出:

2017-10-23 17:48:31-0400 [myspider] DEBUG: Crawled (200) <GET http://example.com> (referer: None)
2017-10-23 17:48:31-0400 [myspider] DEBUG: Crawled (200) <GET http://example.org> (referer: None)
[s] Available Scrapy objects:
[s]   crawler    <scrapy.crawler.Crawler object at 0x1e16b50>
...

>>> response.url
'http://example.org'

接着测试提取代码:

>>> sel.xpath('//h1[@class="fn"]')
[]

呃，看来是没有。您可以在浏览器里查看response的结果，判断是否是您期望的结果:

>>> view(response)
True

最后您可以点击Ctrl-D(Windows下Ctrl-Z)来退出终端，恢复爬取:

>>> ^D
2014-01-23 17:50:03-0400 [myspider] DEBUG: Crawled (200) <GET http://example.net> (referer: None)
...

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄17年

142
原创

5586
点赞

2万+
收藏

2925
粉丝

关注

私信

热门文章

分类专栏

最新评论

让你不再害怕指针——C指针详解(经典,非常详细)
天若有情673: 你的解释非常详细，涵盖了C语言中一些复杂的声明。不过，有一点小错误需要指出，即在Int (*p)(int);这一行中，Int应该是int（C语言是大小写敏感的）。接下来，我将继续按照你的风格，但稍作调整，来解释最后一个复杂的声明： c int *(*p(int))[3]; 这个声明确实相当复杂，但我们可以一步步地分解它来理解。从P开始：首先，我们找到标识符p，它是这个声明的主体。与()结合：p(int)表明p是一个函数，该函数接受一个int类型的参数。考虑函数的返回类型：在()之后，我们遇到的是*，这通常表示指针。但是，在这里它并不直接指向基本数据类型或结构体等，而是指向更复杂的东西。进一步解析返回类型：(*p(int))[3]，这里我们注意到最外层的*被[]包围了。这意味着p(int)返回的是一个指针，该指针指向一个数组。确定数组的类型：[3]告诉我们这个数组有3个元素。但是，数组的元素类型是什么呢？我们继续看*后面的部分。确定数组元素的类型：*紧跟在[]之后，表明数组的每个元素都是指针。这些指针指向什么类型的数据呢？最终确定指针指向的数据类型：在*之后，我们找到了int，这表示每个指针都指向一个int类型的变量。综上所述，int *(*p(int))[3];声明了一个名为p的函数，该函数接受一个int类型的参数，并返回一个指向数组的指针。这个数组有3个元素，每个元素都是一个指向int类型变量的指针。因此，p是一个函数，其参数是一个整型，返回值是一个指向包含三个整型指针的数组的指针。这样的类型在高级数据结构和复杂算法中可能会遇到，但在日常编程中相对较少见。
让你不再害怕指针——C指针详解(经典,非常详细)
D99hao: 说的很好
让你不再害怕指针——C指针详解(经典,非常详细)
m0_74599553: 我觉得你说的对
让你不再害怕指针——C指针详解(经典,非常详细)
旅派: 计算机套娃
让你不再害怕指针——C指针详解(经典,非常详细)
只属于俺: 难道不是内容的类型决定了指针的类型吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。