如果希望spider定向爬取,就需要给spider传入参数
首先在spider类中定义初始化函数
def __init__(self, start_urls=None, number=5, *args, **kwargs):
super(DouBanMovieSituationSpider, self).__init__(*args, **kwargs)
self.start_urls = start_urls
self.number = int(commentNum)
调用时使用
scrapy crawl xxxSpider -a start_urls=xxxxxx -a number=number
想传多少个参数,就在参数前加多少个 -a……
有同学是使用pycharm里面的调用python语句来模拟执行cmd的,则将python语句改为“
from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'xxxSpider',"-a","start_urls=xxxx","-a","number=666"])
参考
https://blog.csdn.net/qq_24760381/article/details/80361400
本文详细介绍了如何在Scrapy爬虫中通过初始化函数定义和传递参数,包括start_urls和自定义参数,如评论数量。提供了PyCharm环境下执行Python语句的方法,以及通过命令行调用的具体示例。
549

被折叠的 条评论
为什么被折叠?



