scrapy 爬虫框架
scrapy是个能够帮助用户实现专业网络爬虫的爬虫框架,不同于小编之前介绍的requests、Beautifulsoup、re这些函数功能库,可实现网站级爬虫,但对于处理js、提交表单、应对验证码等功能还有望扩展。
安装
scrapy爬虫框架的安装方法与其它第三方库无区别
#在cmd或anaconda prompt上运行即可
pip install scrapy
命令执行
#scrapy命令行格式
scrapy <command> [options] [args]
命令 | 说明 |
---|---|
scrapy startproject <name> [dir] | 创建一个新爬虫项目,自动生成一系列文件目录,name指定项目名称 |
scrapy genspider [option] <name> <domain> | 创建一个爬虫,domain指定所要爬取的网页url,option是可选命令操作符,name指定爬虫名称 |
scrapy settings [option] | 获取爬虫配置信息,option是可选命令操作符 |
scrapy runspider [option] <spider_file> | 运行爬虫程序,option是可选命令操作符,spider_file指定需要运行的文件,要有py后缀(旧版本用的是scrapy crawl <spider>) |