一、使用pip3下载scrapy框架,安装过程中会自动下载相关依赖
pip3 install scracpy
二、下载完成后,创建软链接到/bin中
ln -s /usr/local/scrapy /bin/scrapy
三、创建项目目录 demo并使用scrapy初始化项目,进入到项目demo下。
mkdir demo
cd demo
scrapy startproject demo domain.com #初始化scrapy项目,demo项目名 domain.com 允许爬虫抓取的域名
cd domain.com
cd demo
四、scrapy项目结构分析
1-items.py 定义爬虫抓取到的数据映射实体:如下图
2-middlewares.py:定义爬虫中间件
3-pipelines.py:定义数据管道,如对数据进行清洗,入库等,如下图:
定义管道后,需要在设置文件settings.py中导入,(300是执行优先级,越小优先级越高1-1000)如图:
4-settings.py,配置文件存放处,如爬虫http的user-agent请求头,cookies,是否遵循robots协议等,如图:
5-spiders目录:定义具体的爬虫,可以有多个爬虫,每个爬虫文件中定义爬虫的抓取逻辑,如图:
五、运行爬虫:项目创建完毕后,可使用shell命令运行项目
cd domain.com
scrapy crawl demo
或这在demo目录下创建一个文件 并右键运行,可使用debug模式调试
# begin.py
from scrapy import cmdline
cmdline.execute('scrapy crawl scrapydemo'.split())
六、爬取结果:本项目将爬取结果转成json字符串并存入data.json文件