一:项目操作
创建项目:对应目录下:scrapy startproject 项目名称
创建爬虫:scrapy genspider 爬虫名称 对应域名---理应在对应目录下创建
运行爬虫:scrapy crawl 爬虫名
以下是一个典型的scrapy项目的目录结构。
其中:
1:items.py 设置数据存储模板,用于结构化数据。即列出我们需要爬取的字段,为爬虫获取页面信息提供实例。
注意我们在item中的字段并不需要全部获取,所以可以随意添加,以备不时之需。例如我们会
添加一些管理字段:时间,网址,如何执行等
2:pipelines 数据处理行为,如:一般结构化的数据持久化,即存储。
3:settings.py 配置文件,如:递归的层数、并发数,延迟下载等:
4:spiders 爬虫目录,如:创建文件,编写爬虫规则
代码段 小部件