Scrapy命令行详解
过程:
创建爬虫项目
scrapy startproject
cd
scrapy genspider
scrapy genspider -l #列出模板
用crawl模板生成爬虫,例如:
scrapy genspider -t crawl 爬虫名称 目标url
观察spider文件的变化
运行爬虫:
scrapy crawl 爬虫名称
检查代码:
scrapy check -l
scrapy check 爬虫名称
返回所有spider名称:scrapy list
scrapy fetch url:下载网页源代码 参数:--nolog --headers
scrapy view url:请求url。好用。把源代码保存一个文件,并在浏览器打开
scrapy shell url:命令行交互模式
scrapy parse url:可以传入参数,看解析结果
如调用爬虫的parse方法,输出items和request:
scrapy runspider quotes.py 运行爬虫文件.py
scrapy bench :测试爬虫运行性能