Scrapy之CrawlerRunner数据无法进入数据库,并不启用pipelines

在同一进程中运行多个蜘蛛

默认情况下,当您运行时,Scrapy会为每个进程运行一个蜘蛛。但是,Scrapy支持使用内部API在每个进程中运行多个蜘蛛。scrapy crawl

这是一个同时运行多个蜘蛛的示例:

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider1(scrapy.Spider):
    # Your first spider definition
    ...

class MySpider2(scrapy.Spider):
    # Your second spider definition
    ...

process = CrawlerProcess()
process.crawl(MySpider1)
process.crawl(MySpider2)
process.start() # the script will block here until all crawling jobs are finished
使用CrawlerRunner以下示例:
import scrapy
from twisted.internet import reactor
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging

class MySpider1(scrapy.Spider):
    # Your first spider definition
    ...

class MySpider2(scrapy.Spider):
    # Your second spider definition
    ...

configure_logging()
runner = CrawlerRunner()
runner.crawl(MySpider1)
runner.crawl(MySpider2)
d = runner.join()
d.addBoth(lambda _: reactor.stop())

reactor.run() # the script will block here until all crawling jobs are finished
相同的示例,但是通过链接延迟项来依次运行蜘蛛程序:
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging
from twisted.internet import reactor


from ThreatIntellgence.spiders.antiy import AntiySpider
from ThreatIntellgence.spiders.kaspersky import KasperskySpider
from ThreatIntellgence.spiders.a360safety import A360safetySpider
from ThreatIntellgence.spiders.AccentureSecurity import AccenturesecuritySpider

configure_logging()
runner = CrawlerRunner()
runner.crawl(AntiySpider)
runner.crawl(KasperskySpider)
runner.crawl(A360safetySpider)
runner.crawl(AccenturesecuritySpider)
d = runner.join()
d.addBoth(lambda _: reactor.stop())

reactor.run()

注意

此方法并不启用scrapy中的pipelines,只会运行爬虫,所以在管道中的方法并不适用,也并不能将数据通过pipelines存储到数据库中。

那么我们需要启用所有的爬虫可以使用下面的方法
import os


os.system("scrapy crawl antiy -s CLOSESPIDER_TIMEOUT=30")   #爬虫运行完暂停30秒
os.system("scrapy crawl kaspersky -s CLOSESPIDER_TIMEOUT=30")
os.system("scrapy crawl a360safety -s CLOSESPIDER_TIMEOUT=30")
os.system("scrapy crawl Akamai -s CLOSESPIDER_TIMEOUT=30")
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python Scrapy是一种优秀的开源网络爬虫框架,可以用于从网页中爬取数据。借助其强大的功能,我们可以轻松地将爬取到的数据写入数据库。 首先,我们需要创建一个Scrapy项目并配置好爬虫。在项目中,我们可以定义Item类来表示我们需要提取的数据字段。通过编写爬虫规则,我们可以指定要爬取的网页、需要提取的数据字段以及数据的处理方式。 在编写完爬虫规则后,Scrapy会自动将爬取到的数据封装成Item对象。我们可以在爬虫的回调函数中对这些Item对象进行处理,例如将数据写入数据库。 为了将数据写入数据库,我们可以使用Python的数据库操作库,如MySQLdb或者pymysql。首先,我们需要连接到数据库,并创建一个数据库连接对象。然后,我们可以将爬取到的数据逐条插入到数据库中。 插入数据的具体步骤如下: 1. 导入数据库操作库 2. 连接到数据库 3. 创建游标对象 4. 遍历爬取到的数据 5. 构造插入语句 6. 执行插入操作 7. 提交事务 8. 关闭游标和数据库连接 通过以上步骤,我们可以将爬取到的数据成功写入数据库。 值得注意的是,在爬取大量数据时,为了提高性能和效率,我们可以使用异步IO库,如aiomysql或aiopg,来实现异步插入操作。 总而言之,Python Scrapy可以轻松实现数据的网页爬取,并通过数据库操作库将数据写入数据库。这样,我们可以方便地对爬取到的数据进行存储和管理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值