本例以爬去豆瓣为例
#新建爬虫项目
scrapy startproject dpuban
生成名称为douban的project
#生成爬虫文件
cd douban/douban/spiders
scrapy genspider douban_spider movie.douban.com
scrapy genspider 爬虫名 域名
在此目录下会生成douban_spider.py文件,这个就是我们的爬虫文件
#修改配置文件
修改settings.py文件里的user_agent
USER_AGENT = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0.3 Safari/605.1.15’
#设置启动文件
在spiders路径下面新建main.py文件
文件内容如下
from scrapy import cmdline
cmdline.execute(‘scrapy crawl douban_spider’.split())
这样在执行项目时,直接执行main.py文件即可