Pyqt5和Scrapy开发可视化爬虫

本文介绍了如何在Pyqt5界面应用中结合Scrapy爬虫进行商品图片抓取。针对不同爬虫配置问题,文章讨论了通过命令行参数、custom_settings以及CrawlerProcess的不同启动方式,并在UI主线程中使用子线程启动Scrapy爬虫,同时解决跨线程通信和获取爬虫状态的挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

做了一个电商的爬虫,仅做学习使用

爬虫程序

记录一下遇到的坑:
整个开发步骤为,利用scrapy爬几大电商网站的商品图片,然后开发UI,根据输入的信息,执行不同的爬虫。坑就主要在这个地方

1. 如何向scrapy爬虫传递配置信息,包括要爬取的电商网站(即要启动的spider),商品名称,数据库信息,图片保存路径?(不同的爬虫使用不同的配置)

scrapy框架,在settings.py中设置整个项目的配置信息,项目里面所有的spider公用一个配置,不同的爬虫,需要使用不同的配置,即使用不同的settings启动爬虫:

2019年4月23日更新

scrapy框架中,settings有其优先级,官方文档(scrapy-settings)中有如下说明:

设定可以通过多种方式设置,每个方式具有不同的优先级。 下面以优先级降序的方式给出方式列表:
	1. 命令行选项(Command line Options)(最高优先级)
	2. 每个spider的设定(customer_settings)
	3. 项目设定模块(Project setti
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值