python中spider的用法_如何正确使用scrapy-Spider中间件？

夹克一号

于 2021-01-29 04:33:02 发布

阅读量441

点赞数

文章标签： python中spider的用法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34434843/article/details/113501190

版权

我有一个正在工作的scrapy项目，我现在想在其中添加一些自定义中间件。在

我在settings.py中启用了Spider中间件，方法是取消注释下面的三行。在# Enable or disable spider middlewares

# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html

SPIDER_MIDDLEWARES = {

'sweden.middlewares.SwedenSpiderMiddleware': 543,

}

尽管如此，我添加到middlewares.py的任何代码似乎都被忽略了。例如，我添加到下面最后一个方法的input()命令没有执行，即使我成功地刮取了一些页面。在

^{pr2}$

我没有修改默认的文件夹结构。我做不到这一点，而且似乎缺乏例子。。。在

它也不会显示在启动日志中：2017-08-21 16:59:41 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapybot)

2017-08-21 16:59:41 [scrapy.utils.log] INFO: Overridden settings: {'FEED_URI': 'result.jl', 'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'}

2017-08-21 16:59:41 [scrapy.middleware] INFO: Enabled extensions:

['scrapy.extensions.corestats.CoreStats',

'scrapy.extensions.telnet.TelnetConsole',

'scrapy.extensions.memusage.MemoryUsage',

'scrapy.extensions.feedexport.FeedExporter',

'scrapy.extensions.logstats.LogStats']

2017-08-21 16:59:41 [scrapy.middleware] INFO: Enabled downloader middlewares:

['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',

'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',

'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',

'scrapy.downloadermiddlewares.retry.RetryMiddleware',

'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',

'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',

'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',

'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',

'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',

'scrapy.downloadermiddlewares.stats.DownloaderStats']

2017-08-21 16:59:41 [scrapy.middleware] INFO: Enabled spider middlewares:

['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',

'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',

'scrapy.spidermiddlewares.referer.RefererMiddleware',

'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',

'scrapy.spidermiddlewares.depth.DepthMiddleware']

2017-08-21 16:59:41 [scrapy.middleware] INFO: Enabled item pipelines:

[]

2017-08-21 16:59:41 [scrapy.core.engine] INFO: Spider opened

2017-08-21 16:59:41 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

以下是文件结构：.

├── venv

├── tutorial

└── sweden

├── __pycache__

├── scrapy.cfg

└── sweden

├── __init__.py

├── __pycache__

├── items.py

├── middlewares.py

├── pipelines.py

├── settings.py

└── spiders

├── __init__.py

├── __pycache__

└── sweden_spider.py

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python中spider的用法_如何正确使用scrapy-Spider中间件？

我有一个正在工作的scrapy项目，我现在想在其中添加一些自定义中间件。在我在settings.py中启用了Spider中间件，方法是取消注释下面的三行。在# Enable or disable spider middlewares# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.htmlSPIDER_MI...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。