scrapy框架中运行多个spider,tiems,pipelines的使用

最新推荐文章于 2024-04-15 21:57:11 发布

小赖同学啊

最新推荐文章于 2024-04-15 21:57:11 发布

阅读量590

点赞数 1

分类专栏： python 文章标签： python 数据挖掘

本文链接：https://blog.csdn.net/testManger/article/details/107636128

版权

python 专栏收录该内容

132 篇文章 1 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文介绍了如何在Scrapy项目中创建并运行多个Spider，每个Spider有自己的items和pipelines。通过编写crawl.py启动脚本或者修改官方crawl命令，可以同时启动所有Spider。在items.py中定义数据结构，在pipelines.py中处理数据，可以通过设置不同的pipeline类或在pipeline中根据Spider名称进行条件判断来区分不同Spider的数据处理流程。

摘要由CSDN通过智能技术生成

用scrapy只创建一个项目，创建多个spider，每个spider指定items,pipelines.启动爬虫时只写一个启动脚本就可以全部同时启动。

一，创建多个spider的scrapy项目

scrapy startproject mymultispider
运行方法：

1.为了方便观察，在spider中分别打印相关信息

import scrapy
class Myspd1Spider(scrapy.Spider):
    name = 'myspd1'
    allowed_domains = ['sina.com.cn']
    start_urls = ['http://sina.com.cn/']


    def parse(self, response):
        print('myspd1')

其他如myspd2,myspd3分别打印相关内容。

2.多个spider运行方法有两种，第一种写法比较简单&