scrapy项目流程
- 创建一个scrapy项目:scrapy startproject XXXX #XXXX指为项目命名
- 生成一个爬虫:scrapy genspider XXXX项目名称 + 项目网址如(www.baidu.com),只要主域名即可
- 提取数据:完善spider,使用xpath等方法
- 保存数据:pipeline中保存数据
创建scrapy项目
安装scrapy命令:sudo apt-get install scrapy 或者:pip install scrapy
创建scrapy项目的命令:scrapy startproject +<项目名字>
示例:scrapy startproject myspider
创建爬虫
命令:在项目路径下执行:scrapy genspider +<爬虫名字> + <允许爬取的域名>
cd myspider
scrapy genspider XXXX baidu.com
接下来,你就可以自己搭建一个程序爬取数据了!