一、安装(Windows Python3)
pip install scrapy
二、Scrapy爬虫四部曲
1、创建Scrapy爬虫项目(scrapy startproject 项目名)
2、定义提取的结构化数据(items.py)
3、编写爬取网站的 Spider (scrapy genspider 爬虫名 爬虫网站)
4、存储内容(pipilines.py)
三、调试及结果
在scrapy.cfg同级目录下创建调试脚本run.py,内容如下
from scrapy import cmdline
cmdline.execute('scrapy crawl 爬虫名'.split())
保存:
-o 输出指定格式的文件
scrapy crawl 爬虫名 -o xxx.json(json格式)
scrapy crawl 爬虫名 -o xxx.jsonl(json lines格式,默认为Unicode编码)
scrapy crawl 爬虫名 -o xxx.csv
scrapy crawl 爬虫名 -o xxx.xml