Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
我的环境,Win10中文+py2.7
step1.scrapy模块下载
pip install scrapy
step2.创建项目
命令格式如下
scrapy startproject 项目名称
尝试执行一下
C:\>scrapy startproject mySpider
New Scrapy project 'mySpider', using template directory 'c:\python27\lib\site-packages\scrapy\templates\project', created in:
C:\mySpider
You can start your first spider with:
cd mySpider
scrapy genspider example example.com
执行完这一步后,自动创建主目录mySpider,在主目录中scrapy会创建以下内容
mySpider\
scrapy.cfg -->项目的主配置信息。(真正爬虫相关的配置信息在setti