Scrapy:一款流行的网络爬虫框架,它使用了一些高级功能以简化网站爬取。
Scrapy的安装
安装命令:pip install scrapy
利用命令:scrapy -h 检查是否安装成功
scrapy安装信息
scrapy框架结构
数据流动:
1.spider——>engine:engine从spider获得爬取请求(request)
2.engine——>schedule:engine将爬取请求发送给scheduler,用于调度
3.schedule——>engine:engine从schedule获取下一个要爬取的请求
4.engine——>download:engine将请求通过中间件2发送给download
5.download——>engine:爬取网页后,download形成响应(response)通过中间件发送给engine
6.engine——>spider:engine将收到的response通过中间件发送给spider处理
7.spider——>engine:spider处理响应后产生新的爬取项和新的爬取请求发送给engine
8.engine——>item:engine将爬取项发送给item(框架出口)
9.engine——>scheduler:engine把新的请求发送给scheduler
scrapy常用命令
命令 | 作用 |
---|---|
startproject | 创建新的工程 |
genspider | 创建新的爬虫 |
settings | 获取爬虫配置信息 |
crawl | 运行一个爬虫 |
list | 列出工程中所有爬虫信息 |
shell | 启动url调试 命令行 |
项目
运行starproject,生产第一个项目。scrapy项目的默认结构为
scrapy.cfg '''配置'''
example/
_init_.py
items.py '''定义待抓取域的模型'''
middlewares.py '''控制请求和中间件响应'''
pipelines.py '''处理域'''
settings.py '''框架设置,如用户代理、爬取延迟等'''
spiders/ '''存储爬虫代码'''
_init_.py