一、创建Scrapy文件
1.创建工程
#在命令行下输入 scrapy startproject +你的工程名
scrapy startproject douban
2.创建爬虫程序
#cd 目录名
#scrapy genspider 名字 网址
#这里有个大坑,目录名和项目名不能一样,否则会报错以后若遇到,要改为相对路径导入
cd douban
scrapy genspider doubantest movie.douban.com/top250
4、文件说明:
- scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
- items.py 设置数据存储模板,用于结构化数据,定义需要后期处理的数据。如:Django的Model,
- pipelines 数据处理行为,存取后期处理数据的