Scrapy 请求并发数设置

  并发数可以在scrapy项目的settings.py文件中设置。

  1.CONCURRENT_ITEMS

    是指:最大并发项目数,默认100个。  

  2.CONCURRENT_REQUESTS

    是指:下载器将执行的并发(即同时)请求的最大数量,默认16个。

  3.CONCURRENT_REQUESTS_PER_DOMAIN

    是指:任何单个域执行的并发(即同时)请求的最大数量,默认:8

  4.CONCURRENT_REQUESTS_PER_IP

    是指:任何单个IP执行的并发求的最大数量,而使用该设置,并发限制将适用于每个 IP,而不是每个域,默认0不启用,

        如果非0,CONCURRENT_REQUESTS_PER_DOMAIN和DOWNLOAD_DELAY则忽略

  项目中默认配置的请求并发数是16个,下面代码和截图验证了此功能。

    def start_requests(self):
        self.load_urlList()
        #self.urls是一个url列表
        while len(self.urls)>0:
            url= self.urls.pop(0)
            print(url)
            print(f"抓取还有url{len(self.urls)}个")
            yield  scrapy.Request(url=url, callback=self.parse,headers=self.headers)    

   scrapy crawl  spidername 命令启动时,request请求了16个url,下图是一次并发多个抓取

  

     settings.py全局配置如下所示:

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

参考文档:https://docs.scrapy.org/en/latest/topics/settings.html#

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Scrapy是一个用于爬取网站据的Python框架,它提供了一套强大的API来帮助开发者编写和管理爬虫程序。下面是Scrapy API的一些重要组成部分: 1. Scrapy模块:Scrapy框架的核心模块,包含了各种用于爬取、处理和存储据的类和函。 2. Spider类:Spider是Scrapy中最基本的组件之一,用于定义爬取网站的逻辑和规则。开发者需要继承Spider类,并实现一些必要的方法来指定起始URL、解析响应、提取据等。 3. Item类:Item是Scrapy中用于表示爬取到的据的容器。开发者可以定义自己的Item类,并在Spider中使用它来提取和存储据。 4. Selector类:Selector是Scrapy中用于选择和提取HTML或XML文档中特定元素的工具类。开发者可以使用Selector类来编写XPath或CSS选择器来定位和提取所需的据。 5. Pipeline类:Pipeline是Scrapy中用于处理爬取到的据的组件。开发者可以编写自己的Pipeline类来对据进行清洗、验证、存储等操作。 6. Middleware类:Middleware是Scrapy中用于处理请求和响应的中间件组件。开发者可以编写自己的Middleware类来对请求和响应进行预处理、过滤、修改等操作。 7. Downloader类:Downloader是Scrapy中用于下载网页内容的组件。开发者可以通过配置Downloader中的参来控制下载的行为,如设置User-Agent、代理等。 8. Settings类:Settings是Scrapy中用于配置爬虫程序的类。开发者可以通过设置不同的参来调整爬虫的行为,如设置并发、延时等。 以上是Scrapy API的一些重要组成部分,通过使用这些API,开发者可以灵活地编写和管理自己的爬虫程序。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值