做了一个电商的爬虫,仅做学习使用
记录一下遇到的坑:
整个开发步骤为,利用scrapy爬几大电商网站的商品图片,然后开发UI,根据输入的信息,执行不同的爬虫。坑就主要在这个地方
1. 如何向scrapy爬虫传递配置信息,包括要爬取的电商网站(即要启动的spider),商品名称,数据库信息,图片保存路径?(不同的爬虫使用不同的配置)
scrapy框架,在settings.py中设置整个项目的配置信息,项目里面所有的spider公用一个配置,不同的爬虫,需要使用不同的配置,即使用不同的settings启动爬虫:
2019年4月23日更新
scrapy框架中,settings有其优先级,官方文档(scrapy-settings)中有如下说明:
设定可以通过多种方式设置,每个方式具有不同的优先级。 下面以优先级降序的方式给出方式列表:
1. 命令行选项(Command line Options)(最高优先级)
2. 每个spider的设定(customer_settings)
3. 项目设定模块(Project setti