爬虫知识7:scrapy的settings配置文件中各参数解释以及如何自定义类

本文介绍了Scrapy项目的settings.py配置文件中的关键参数,包括BOT_NAME, SPIDER_MODULES, USER_AGENT等,并讲解了如何自定义中间件、管道和去重策略,帮助理解并优化Scrapy爬虫的运行行为。" 111541823,10296159,STM32H7 HAL库深入解析:初始化与滴答时钟,"['STM32', '嵌入式开发', 'Cortex-M7', '微控制器']
摘要由CSDN通过智能技术生成

建立完爬虫项目之后,都会有如下的结构:

640?wx_fmt=png&wxfrom=5&wx_lazy=1

其中,settings.py文件是存放配置文件用的,初始化的settings文件,只有以下四个变量是默认定义好的,其他都是注释掉的。现在从上往下,看下每个变量的含义。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

  • 1)BOT_NAME:爬虫项目的名字,每个爬虫去爬取网站时,都会在user-agent带着这个爬虫名字去爬取网站。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

  • 2)SPIDER_MODULES、NEWSPIDER_MODULE:爬虫的路径

640?wx_fmt=png&wxfrom=5&wx_lazy=1

  • 3)USER_AGENT:请求头,用来表示请求者的信息,比如会带着客户端的爬虫名称去访问爬虫网站,如果被识别到就会被拒绝,因此可以参考反爬虫的博文,动态伪装成浏览器,以便成功爬取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值