Scrapy在Twisted异步网络库上构建,所以如果程序必须在Twisted reactor里运行
1、方式一:使用CrawlerProcess类
CrawlerProcess类(scrapy.crawler.CrawlerProcess)内部将会开启Twisted reactor、配置log和设置Twisted reactor自动关闭。
可以在CrawlerProcess初始化时传入设置的参数,使用crawl方式运行指定的爬虫类。
```
if __name__=="__main__":
process = CrawlerProcess(
{
"USER_AGENT":"Mozilla/5.0 ....",
}
)
process.crawl(爬虫类)
process.start()
```
也可以在CrawlerProcess初始化时传入项目的settings信息,在crawl方法中传入爬虫的名字。
```
if __name__=="__main__":
process = CrawlerProcess(
project_settings()