Python爬虫框架的介绍

ProgramStack

已于 2023-04-13 09:24:31 修改

阅读量1k

点赞数 1

分类专栏： Python爬虫自动化文章标签： python 爬虫开发语言 scrapy crawley

于 2023-04-13 09:23:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_67021058/article/details/130121184

版权

Python爬虫自动化专栏收录该内容

16 篇文章 6 订阅

订阅专栏

爬虫框架的介绍

Scrapy框架
Crawley框架
Portia框架
Newspaper框架
Python-goose框架

随着网络爬虫的应用越来越多，一些爬虫框架逐渐涌现，这些框架将爬虫的一些常用功能和业务逻辑进行封装。这些框架的基础上，根据自己的需求添加少量的代码，就可以实现自己想的的一个爬虫。使用Python语言开发的爬虫框架有很多，但是实现方式和原理大同小异，用户只需要深入掌握一种框架，对其他框架做了简单了解即可，常见的Python框架主要有以下几种：Scrapy、Crawley、Portia、Newspaper、和Python-goose。

Scrapy框架

Scrapy是用纯Python实现的一个开源的爬虫框架，是为了高效地爬取网站数据、提取结构性数据而编写地应用框架，用途非常广泛，可用于爬虫开发、数据挖掘、数据检测、自动化测试领域。

Scrapy使用了Twisted异步网络框架来处理网络通信，该网络框架可以加快下载速度，并且包含了各种中间件接口，可以灵活地完成各种需求。

Scrapy框架下载安装

在这里插入图片描述

Scrapy功能很强大，它支持自定义Item和pipline数据管道；支持在Spider中指定domain(网页域范围)以及相应的Rule(爬取规则)；支持XPath对DOM的解析等。而且Scrapy还有自己的shell，可以方便地调试爬虫项目和查看爬虫运行结果。

Crawley框架

Crawley是用Python开发出的、基于非阻塞通信(NIO)的爬虫框架，他能高速爬取对应网站的内容，支持关系型和非关系型数据库，支持输出Json、XML和CSV等各种格式。

Crawley框架下载安装

在这里插入图片描述

Portia框架

Portia框架是scrapyhub开源的一款可视化的爬虫规则编写工具，提供可视化的Web页面，用户只需要点击标注页面需要抽取的数据，不需要任何编程知识即可完成规则的开发(但是动态网页需要自己下载JS解析器)。

Portia框架下载安装

在这里插入图片描述

除此之外，Portia框架还提供了网页版，用户只需要住的一个账号，不需要下载框架就就可以直接进行使用。

Portia网页版下载

在这里插入图片描述

这里就不进行Portia的具体介绍了，因为它不需要任何编程基础就可使用，如果感兴趣可以去尝试尝试。

Newspaper框架

Newspaper框架专门用于提取新闻、文章内容和内容分析的爬虫框架，该框架有以下特点：

支持10多种语言
所有内容都是使用Unicode编码
使用多线程下载文章
能够识别新闻网站的URL
能够从网页中提取文本和图片，并且从文本中提取关键词、摘要和作者

Newspaper下载安装

Python-goose框架

goose本身是用Java语言编写的用于提取文章的框架，Python-goose是用Python语言对goose框架的重新实现。Python-goose的设计目的是爬取新闻和网页文章，并从中提取以下内容：

文章的主体
文章中的图片
文章中包含的所有YouTube/Vimeo视频
元描述信息
元标签

Python-goose框架下载安装

在这里插入图片描述

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python爬虫框架的介绍

随着网络爬虫的应用越来越多，一些爬虫框架逐渐涌现，这些框架将爬虫的一些常用功能和业务逻辑进行封装。这些框架的基础上，根据自己的需求添加少量的代码，就可以实现自己想的的一个爬虫。使用Python语言开发的爬虫框架有很多，但是实现方式和原理大同小异，用户只需要深入掌握一种框架，对其他框架做了简单了解即可，常见的Python框架主要有以下几种：Scrapy、Crawley、Portia、Newspaper、和Python-goose。
复制链接

扫一扫

专栏目录

ProgramStack CSDN认证博客专家 CSDN认证企业博客

码龄2年

113: 原创

7941: 周排名

3万+: 总排名

10万+: 访问

: 等级

1454: 积分

4956: 粉丝

286: 获赞

47: 评论

528: 收藏

私信

关注

热门文章

分类专栏

最新评论

Qt配置OpenCV(保姆级教程)
weixin_46426658: https://wangjichuan.blog.csdn.net/article/details/110677323?spm=1001.2101.3001.6650.3&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-3-110677323-blog-133864429.235%5Ev43%5Epc_blog_bottom_relevance_base5&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-3-110677323-blog-133864429.235%5Ev43%5Epc_blog_bottom_relevance_base5&utm_relevant_index=4 问题已解决
Qt配置OpenCV(保姆级教程)
weixin_46426658: 请问解决了嘛？我也是这个问题呢
Qt配置OpenCV(保姆级教程)
折艾: 我没有用cmake，换了个方法配置opencv
Visual Studio配置libtorch(cuda安装一步到位)
万里守约: 1、链接器中所有lib文件都要添加，建议你给出相应的文本文件，不用读者一个一个手动输入； 2、不同的cuda版本需要不同的命令行，如何根据自己的版本进行配置没有说清楚最后也感谢博主的分享
Qt配置OpenCV(保姆级教程)
2401_84040330: 你好，我的QT5.14没有Tools文件夹，怎么办？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ProgramStack 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。