Scrapy爬虫的使用
步骤
- 创建一个工程和spider模版
- 编写spider
- 编写item pipeline模版
- 进行优化策略的配置
Scrapy爬虫的数据类型: - Request
包含6个属性和方法
.url Request对应的请求URL地址
.method 对应的请求方法,‘GET’ ‘POST’等
.headers 字典类型风格的请求头
.body 请求内容主题,字符串类型
.meta 用户添加的扩展信息,在Scrapy内部模块间传递信息使用
.copy() 复制该请求 - Response
.url Response 对应的URL地址
.status HTTP状态码,默认是200
.headers Response 对应的头部信息
.body Response 对应的内部信息,字符串类型
.flag 一组标记
.request 产生Response 类型对应的Request对象
.copy() 复制该响应 - Item
是从HTML页面提取的信息内容
由Spider生成,由Item Pipeline 处理
类字典类型
提取网络相关信息后,将生成键值对
提取信息的方法
- Beautiful Soup
- Lxml
- re
- XPath Selector
- css selector
使用格式: