一、安装
Win平台: “以管理员身份运行”cmd 执行pip install scrapy
安装后小测: 执行scrapy‐h
二、常用指令
Scrapy是给程序员用的,故采用命令行(不是图形界面)的形式更容易自动化,适合脚本控制 .
1.Scrapy命令行格式:
2.指令:
三、使用步骤
步骤1:创建一个工程和Spider模板
创建的工程目录结构:
步骤2:编写Spider
1、产生爬虫
创建的demo.py文件(爬虫)结构:
补充:
2、配置产生的爬虫
步骤3:运行爬虫
步骤4:编写Item Pipeline
步骤5:优化配置策略
四、Scrapy爬虫的基本类型(三种)
1。Request类——class scrapy.http.Request()
Request对象表示一个HTTP请求 由Spider生成,由Downloader执行。
2.Response类——class scrapy.http.Response()
Response对象表示一个HTTP响应 由Downloader生成,由Spider处理。
3.Item类——class scrapy.item.Item()
Item对象表示一个从HTML页面中提取的信息内容 由Spider生成,由Item Pipeline处理 。
Item类似字典类型,可按照字典类型操作
五、Scrapy爬虫信息提取的方法