scrapy中自定义日志的设置以及日志等级的介绍以及使用

(1)在settings.py中添加:

LOG_FILE = 'log.txt'

用来设置日志文件的名称。

LOG_ENABLED 默认: True,启用logging

LOG_ENCODING 默认: ‘utf-8’,logging使用的编码

LOG_FILE 默认: None,在当前目录里创建logging输出文件的文件名

LOG_LEVEL 默认: ‘DEBUG’,log的最低级别

(2)在爬虫spider中导入logging包即可自定义日志输出。

import logging
logging.info('一般信息')
logging.warning('警告信息')
logging.debug('调试信息')
logging.error('错误信息')
logging.critical('严重错误信息')

(3)Python的内置日志记录定义了5个不同的级别来指示给定日志消息的严重性。以下是标准的,按降序排列:

CRITICAL - 严重错误

ERROR - 一般错误

WARNING - 警告信息

INFO - 一般信息

DEBUG - 调试信息

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用Scrapy构建爬虫的详细步骤如下: 1. 创建项目:在命令行使用`scrapy startproject <project_name>`命令创建一个新的Scrapy项目。 2. 创建Spider:进入项目目录,使用`scrapy genspider <spider_name> <start_url>`命令创建一个新的Spider,并在生成的Spider文件编写爬虫逻辑。 3. 编写爬虫逻辑:在生成的Spider文件,通过定义`start_urls`和`parse`方法来指定起始URL和解析响应的逻辑。可以使用XPath或CSS选择器来提取所需的数据。 4. 定义Item:在项目目录下的`items.py`文件定义需要爬取的数据结构,即Item对象。 5. 配置Pipeline:在项目目录下的`settings.py`文件配置数据处理的Pipeline,可以启用或禁用已有的Pipeline,也可以自定义新的Pipeline来处理数据。 6. 运行爬虫:在命令行使用`scrapy crawl <spider_name>`命令来运行爬虫。可以通过命令行参数或在Spider设置来控制爬取的行为。 7. 处理数据:在Pipeline对爬取到的数据进行处理和存储。可以使用内置的Pipeline,如存储到数据库或文件,也可以自定义Pipeline来实现特定的处理逻辑。 8. 调试与优化:根据实际情况进行调试和优化,可以使用Scrapy提供的日志功能来查看爬取过程的错误和警告信息。 以上是使用Scrapy构建爬虫的基本步骤,你可以根据实际需求进行进一步的定制和扩展。在编写爬虫代码时,可以参考Scrapy官方文档和示例代码,以及相关的教程和案例。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值