Python scrapy爬虫框架常用setting配置

最新推荐文章于 2024-07-03 16:18:05 发布

甄超锋

最新推荐文章于 2024-07-03 16:18:05 发布

阅读量546

点赞数 1

分类专栏：爬虫文章标签： scrapy 爬虫 Python spider 配置

本文链接：https://blog.csdn.net/Mr_Zhen/article/details/89879185

版权

本文详细介绍了Python Scrapy爬虫框架的常用设置，包括降低log级别以减少CPU使用率，日志管理，增加并发，禁止重试，减少下载超时，禁止cookies和重定向，设置下载延迟，以及如何暂停和恢复爬虫。同时讨论了不遵守robots.txt，配置请求头，使用pipelines以及随机User-Agent的方法，旨在提升爬虫性能和效率。

摘要由CSDN通过智能技术生成

Python scrapy爬虫框架常用setting配置

十分想念顺店杂可。。。

降低log级别

当进行通用爬取时，一般您所注意的仅仅是爬取的速率以及遇到的错误。 Scrapy使用 INFO log级别来报告这些信息。为了减少CPU使用率(及记录log存储的要求), 在生产环境中进行通用爬取时您不应该使用 DEBUG log级别。不过在开发的时候使用 DEBUG 应该还能接受。

setting.py文件中设置LOG_LEVEL = 'INFO'

日志管理

LOG_ENABLED 默认: True，启用logging
LOG_ENCODING 默认: ‘utf-8’，logging使用的编码
LOG_FILE 默认: None，在当前目录里创建logging输出文件的文件名，例如：LOG_FILE = ‘log.txt’
配置了这个文件，就不会在控制台输出日志了
LOG_LEVEL 默认: ‘DEBUG’，log的最低级别，会打印大量的日志信息，如果我们不想看到太多的日志，可以提高log等级
共五级：
CRITICAL - 严重错误
ERROR - 一般错误
WARNING - 警告信息
INFO - 一般信息
DEBUG - 调试信息
LOG_STDOUT 默认: False 如果为 True，进程所有的标准输出(及错误)将会被重定向到log中。
例如，执行 print(“hello”) ，其将会显示到日志文件中

增加并发

并发是指同时处理的request的数量。其有全局限制和局部(每个网站)的限制。
Scrapy默认的全局并发限制对同时爬取大量网站的情况并不适用，因此您需要增加这个值。增加多少取决于您的爬虫能占用多少CPU。一般开始可以设置为 100 。不过最好的方式是做一些测试，获得Scrapy进程占取CPU与并发数的关系。为了优化性能，您应该选择一个能使CPU占用率在80%-90%的并发数

在setting.py文件中写上CONCURRENT_REQUESTS = 100，scrapy中默认的并发数是32

禁止重试

对失败的HTTP请求进行重试会减慢爬取的效率，尤其是当站点响应很慢(甚至失败)时，访问这样的站点会造成超时并重试多次。这是不必要的，同时也占用了爬虫爬取其他站点的能力。

RETRY_ENABLED = False

减少下载超时

如果您对一个非常慢的连接进行爬取(一般对通用爬虫来说并不重要)，减小下载超时能让卡住的连接能被快速的放弃并解放处理其他站点的能力。

DOWNLOAD_TIMEOUT = 15,其中15是设置的下载超时

最低0.47元/天解锁文章

甄超锋

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Python scrapy爬虫框架常用setting配置

Python scrapy爬虫框架常用setting配置 十分想念顺店杂可。。。 降低log级别当进行通用爬取时，一般您所注意的仅仅是爬取的速率以及遇到的错误。 Scrapy使用 INFO log级别来报告这些信息。为了减少CPU使用率(及记录log存储的要求), 在生产环境中进行通用爬取时您不应该使用 DEBUG log级别。不过在开发的时候使用 DEBUG 应...
复制链接

扫一扫