pyspider介绍

最新推荐文章于 2024-08-09 07:12:28 发布

风云二冰

最新推荐文章于 2024-08-09 07:12:28 发布

阅读量4.6k

点赞数 1

分类专栏： python爬虫之pyspider 文章标签： python 结构爬虫

本文链接：https://blog.csdn.net/qqlixiao2014/article/details/75612124

版权

python爬虫之pyspider 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Pyspider功能需求

pyspider是一个爬虫架构的开源化实现。主要的功能需求是：

抓取、更新调度多站点的特定的页面
需要对页面进行结构化信息提取
灵活可扩展，稳定可监控

而这也是绝大多数python爬虫的需求 —— 定向抓取，结构化化解析。但是面对结构迥异的各种网站，单一的抓取模式并不一定能满足，灵活的抓取控制是必须的。为了达到这个目的，单纯的配置文件往往不够灵活，于是，通过脚本去控制抓取是pyspider最后的选择。

而去重调度，队列，抓取，异常处理，监控等功能作为框架，提供给抓取脚本，并保证灵活性。最后加上web的编辑调试环境，以及web任务监控，即成为了这套框架。

Pyspider设计基础

pyspider的设计基础是：以python脚本驱动的抓取环模型爬虫。

通过python脚本进行结构化信息的提取，follow链接调度抓取控制，实现最大的灵活性。
通过web化的脚本编写、调试环境。web展现调度状态。
抓取环模型成熟稳定，模块间相互独立，通过消息队列连接，从单进程到多机分布式灵活拓展。

这里写图片描述

Pyspider架构设计

pyspider 的架构主要分为 scheduler（调度器）, fetcher（抓取器）, processor（脚本执行）：
这里写图片描述

各个组件间使用消息队列连接，除了scheduler是单点的，fetcher 和 processor 都是可以多实例分布式部署的。scheduler 负责整体的调度控制。
任务由 scheduler 发起调度，fetcher 抓取网页内容， processor执行预先编写的python脚本，输出结果或产生新的提链任务（发往 scheduler），形成闭环。
每个脚本可以灵活使用各种python库对页面进行解析，使用框架API控制下一步抓取动作，通过设置回调控制解析动作。

pyspider功能

webui

web的可视化任务监控
web脚本编写，单步调试
异常捕获、log捕获，print捕获等

scheduler

任务优先级
周期定时任务
流量控制

fetcher

dataurl支持，用于假抓取模拟传递
method,header,cookie,proxy,etag,last_modified,timeout等等抓取调度控制
可以通过适配类似phantomjs的webkit引擎支持渲染

processor

内置的pyquery，以jQuery解析页面
在脚本中完全控制调度抓取的各项参数
可以向后链传递信息
异常捕获

Pyspider在centos下安装

安装依赖库

•# yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel

升级pip

•# pip install –upgrade pip

安装pyspider

•# pip install pyspider

访问控制台

•安装完成直接执行pyspider以默认配置运行pyspider，访问http://localhost:5000访问控制台

Pyspider控制台使用说明

这里写图片描述

队列统计:是为了方便查看爬虫状态，优化爬虫爬取速度新增的状态统计．每个组件之间的数字就是对应不同队列的排队数量．通常来是０或是个位数．如果达到了几十甚至一百说明下游组件出现了瓶颈或错误，需要分析处理．
**新建项目：**pyspider与scrapy最大的区别就在这，pyspider新建项目调试项目完全在web下进行，而scrapy是在命令行下开发并运行测试．
组名：项目新建后一般来说是不能修改项目名的，如果需要特殊标记可修改组名．直接在组名上点鼠标左键进行修改．注意：组名改为delete后如果状态为stop状态，24小时后项目会被系统删除．
运行状态：这一栏显示的是当前项目的运行状态．每个项目的运行状态都是单独设置的．直接在每个项目的运行状态上点鼠标左键进行修改．运行分为五个状态：TODO，STOP，CHECKING，DEBUG，RUNNING．各状态说明：TODO是新建项目后的默认状态，不会运行项目．STOP状态是停止状态，也不会运行．CHECHING是修改项目代码后自动变的状态．DEBUG是调试模式，遇到错误信息会停止继续运行，RUNNING是运行状态，遇到错误会自动尝试，如果还是错误会跳过错误的任务继续运行．
速度控制：很多朋友安装好用说爬的慢，多数情况是速度被限制了．这个功能就是速度设置项．rate是每秒爬取页面数，burst是并发数．如1/3是三个并发，每秒爬取一个页面．
简单统计：这个功能只是简单的做的运行状态统计，5m是五分钟内任务执行情况，1h是一小时内运行任务统计，1d是一天内运行统计，all是所有的任务统计．
**运行：**run按钮是项目初次运行需要点的按钮，这个功能会运行项目的on_start方法来生成入口任务．
任务列表：显示最新任务列表，方便查看状态，查看错误等
结果查看：查看项目爬取的结果．