基本结构:
scrapy.cfg
tutorial:
settings.py
pipelines.py
spiders/
demz_spider.py
items.py
上图是基本的结构
- scrapy.cfg:存储项目信息,表示这个tutorial是一个scrapy项目
- settings.py:全局配置文件
- pipelines.py:管道,负责过滤等操作
- spiders/:爬虫文件夹,这个允许存在多个爬虫,具体负责执行request需要爬的网址进行页面抓取并且返回response,最终和items进行相互抓取映射
- items.py:字典表,类似ORM类,负责保存需要抓取的字段
- 运行并保存数据到本地
scrapy crawl dmoz -o items.json
——————
命令行工具:
在项目中创建一个新的爬虫:
scrapy genspider mydomain mydomain.com
- 全局命令(在system shell执行)
- startproject:创建一个项目
- settings
- runspider
- shell
- fetch
- view
- version
- 项目命令(必须在具体项目中进行执行)
- crawl:启动爬虫开始抓取
- 语法: scrapy crawl <爬虫名称>
- check:项目检查
- 语法:scrapy check [-l] <爬虫名称>
- list:列出项目中可用的爬虫
- 语法:scrapy list
- edit:编辑spider,没啥卵用
- parse
- genspider:在当前项目中创建爬虫
- 语法:scrapy genspider [-t 模板名称]
shell
$ scrapy genspider -l
Available templates:
basic:基本模板
crawl
csvfeed
xmlfeed
- 语法:scrapy genspider [-t 模板名称]
- deploy
- bench
- crawl:启动爬虫开始抓取