网络爬虫开发常用框架

最新推荐文章于 2024-04-28 21:43:22 发布

mez_Blog

最新推荐文章于 2024-04-28 21:43:22 发布

阅读量3.3k

点赞数 2

分类专栏： Python 文章标签： python 开发框架网络爬虫入门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mez_Blog/article/details/119747631

版权

Python 专栏收录该内容

67 篇文章 18 订阅

订阅专栏

爬虫框架就是一些爬虫项目的半成品，可以将一些爬虫常用的功能写好，然后留一些接口，在不同的爬虫项目当中调用适合自己项目的接口，再编写少量的代码实现自己需要的功能。因为框架中已经实现了爬虫常用的功能，所以为开发人员节省了很多精力与时间。

1.Scrapy爬虫框架

Scrapy框架是一套比较成熟的Python爬虫框架，简单轻巧，并且非常方便。可以高效率地爬取web页面并从页面中提取结构化的数据。Scrapy是一套开源的框架，所以在使用时不需要担心收取费用的问题。Scrapy的官网地址为https://scrapy.org，页面如下：

另外Scrapy开发框架对开发者提供了开发文档，文档中详细地介绍了开源框架的安装以及Scrapy的使用教程。

2.Crawley爬虫框架

Crawley也是Python开发出的爬虫框架，该框架致力于改变人们从互联网中提取数据的方式。Crawley的特性如下：

【1】基于Eventlet构件的高速网络爬虫框架

【2】可以将数据存储在关系数据库中，如Postgres、MySQL、Oracle、Sqlite。

【3】可以将爬取的数据导入为Json、Xml格式。

【4】支持非关系型数据库，如MongoDB和Couchdb

【5】支持命令行工具

【6】可以使用您喜欢的工具进行数据的提取，如Xpath或Pyquery工具

【7】支持使用Cookie登录或访问那些只有登录才可以访问的网页。

【8】简单易学

Crawley的官网地址为http://project.crawley-cloud.com.

3.PySpider爬虫框架

相对于Scrapy框架而言，PySpider框架是一支新秀。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器、任务监视器、项目管理器以及结果查看器。PySpider的特性如下：

【1】Python脚本控制，可以用任何您喜欢的HTML解析包（内置pyquery）

【2】使用web界面编写调试脚本、起停脚本，监控执行状态，查看活动历史，获取结果产出。

【3】支持MySQL、MongoDB、redis、SQLite、Elasticsearch、PostgreSQL与SQLAlchemy。

【4】支持RabbitMQ、Beanstalk、Redis和Kombu作为消息队列。

【5】支持抓取JavaScript的页面

【6】强大的调度控制，支持超时重爬及优先级设置

【7】组件可替换，支持单机/分布式部署，支持Docker部署。

PySpider源码地址为https://github.com/binux/pyspider/releases.

开发文档地址为：http://docs.pyspider.org/。

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
网络爬虫开发常用框架

爬虫框架就是一些爬虫项目的半成品，可以将一些爬虫常用的功能写好，然后留一些接口，在不同的爬虫项目当中调用适合自己项目的接口，再编写少量的代码实现自己需要的功能。因为框架中已经实现了爬虫常用的功能，所以为开发人员节省了很多精力与时间。1.Scrapy爬虫框架Scrapy框架是一套比较成熟的Python爬虫框架，简单轻巧，并且非常方便。可以高效率地爬取web页面并从页面中提取结构化的数据。Scrapy是一套开源的框架，所以在使用时不需要担心收取费用的问题。Scrapy的官网地址为https://scra
复制链接

扫一扫

专栏目录

mez_Blog CSDN认证博客专家 CSDN认证企业博客

码龄6年

318: 原创

7194: 周排名

2592: 总排名

86万+: 访问

: 等级

8732: 积分

1万+: 粉丝

1248: 获赞

217: 评论

4115: 收藏

私信

关注

分类专栏

最新评论

系统辨识课程笔记
wl256: 上课还要做题
Tensorflow入门（1.0）
qq_47146145: 作者你好，我想问问，平时搞科研是不是学1.0版本的tensorflow就够用了
用Python群发邮件
福昇: 请问这样是群发单显吗？
用Python绘制折线图（上）
.一一...: 请问当当 titles_from_data = False时，如何给图例自定义名称？
定点除法运算
做而论道_CS: 。。。“补码就是反码加一”。。。－－－－－－－－－－－－－－－－书上确实是这么写的。但是，他们说的，对吗？如果码长是 8 位，各码的表示范围是：　原码：－127 ~ +127；　反码：－127 ~ +127；　补码：－128 ~ +127；看到了吗？　－128 只有补码，没有原码和反码。同样，无论码长是多少位，原码反码都比补码，少一个数。那么：　没有原码，拿什么取反？　没有反码，拿什么加一？其实，取反加一，就是蒙骗学生的谎言！根本就不能说明：“补码是怎么回事”。－－－－－－－－－－－－－－－－－－－－－－－－－所谓的“补码”，只是一个【代替负数的正数】而已。你上过小学吗？做过这样的算术题吧：　27 － 1 = 26 　27 + 99 = (一百) 26 你只要舍弃了进位：　+99 就能代替－1；　+98 就能代替－2；　。。。同时，加法，也就能代替减法运算。如果在计算机中，舍弃了进位，那么：　在计算机中，就没有负数了。　减法运算，当然也就没有了。因此，计算机只须配置一个加法器，便可走遍天下！舍弃进位！舍弃进位！！舍弃进位！！！这才是 “补码” 的来历。哪有什么：机器数符号位原码反码取反加一 ... ！－－－－－－－－－－－－－－－－－－保留或舍弃进位，是由你的软件决定的。因此，所谓的补码，它是由【算法】导出来的。 “补码”，跟硬件，毫无关系。同样，“浮点数” 的值，也是由软件实现的。因此，“浮点数”，也跟计算机毫无关系。学习计算机时，先要学懂硬件，然后在此基础上，学习编程。只有在编程时，才需要讨论各种算法。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

mez_Blog 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。