使用前自行安装scrapy,教程百度
创建项目:
在要放代码的位置,输入
scrapy startproject [ProjectName]
项目结构如下:
MtTest/
scrapy.cfg // 项目的配置文件
MyTest/
__init__.py
items.py //项目中的item文件
pipelines.py // 项目中的pipelines文件
settings.py //项目的设置文件
middlewares.py // 中间件(有时可能没有这个文件)
spiders/ //放置spider代码的目录
__init__.py
...
Scrapy使用流程:
- 选择网站(拿简书首页做例子了)
- 定义要抓取的数据( 即 items.py)
- 编写提取数据的spider(即spiders文件夹)
- 查看提取到的数据(scraped_data.json)
中间件介绍:
middlewares中有以下函数:
- process_spider_input: 当response通过spider中间件时,该方法被调用,处理该response
- process_spider_output:: 当Spider处理response返回result时,该方法被调用
- process_spider_exception: just like the name
- process_start_requests:该方法以spider 启动的request为参数被调用,执行的过程类似于 process_spider_output() ,只不过其没有相关联的response并且必须返回request(不是item)。其接受一个可迭代的对象(start_requests 参数)且必须返回另一个包含 Request 对象的可迭代对象。
1.定义要抓取的数据
在items.py中
class MytestItem(scrapy.Item):
# define the fields for your item here like:
name = scrapy.Field<