Python爬虫框架的介绍

随着网络爬虫的应用越来越多,一些爬虫框架逐渐涌现,这些框架将爬虫的一些常用功能和业务逻辑进行封装。这些框架的基础上,根据自己的需求添加少量的代码,就可以实现自己想的的一个爬虫。使用Python语言开发的爬虫框架有很多,但是实现方式和原理大同小异,用户只需要深入掌握一种框架,对其他框架做了简单了解即可,常见的Python框架主要有以下几种:Scrapy、Crawley、Portia、Newspaper、和Python-goose。

Scrapy框架

Scrapy是用纯Python实现的一个开源的爬虫框架,是为了高效地爬取网站数据、提取结构性数据而编写地应用框架,用途非常广泛,可用于爬虫开发、数据挖掘、数据检测、自动化测试领域。

Scrapy使用了Twisted异步网络框架来处理网络通信 ,该网络框架可以加快下载速度,并且包含了各种中间件接口,可以灵活地完成各种需求。

Scrapy框架下载安装

在这里插入图片描述

Scrapy功能很强大,它支持自定义Item和pipline数据管道;支持在Spider中指定domain(网页域范围)以及相应的Rule(爬取规则);支持XPath对DOM的解析等。而且Scrapy还有自己的shell,可以方便地调试爬虫项目和查看爬虫运行结果。

Crawley框架

Crawley是用Python开发出的、基于非阻塞通信(NIO)的爬虫框架,他能高速爬取对应网站的内容,支持关系型和非关系型数据库,支持输出Json、XML和CSV等各种格式。

Crawley框架下载安装

在这里插入图片描述

Portia框架

Portia框架是scrapyhub开源的一款可视化的爬虫规则编写工具,提供可视化的Web页面,用户只需要点击标注页面需要抽取的数据,不需要任何编程知识即可完成规则的开发(但是动态网页需要自己下载JS解析器)。

Portia框架下载安装

在这里插入图片描述

除此之外,Portia框架还提供了网页版,用户只需要住的一个账号,不需要下载框架就就可以直接进行使用。

Portia网页版下载

在这里插入图片描述

这里就不进行Portia的具体介绍了,因为它不需要任何编程基础就可使用,如果感兴趣可以去尝试尝试。

Newspaper框架

Newspaper框架专门用于提取新闻、文章内容和内容分析的爬虫框架,该框架有以下特点:

  • 支持10多种语言
  • 所有内容都是使用Unicode编码
  • 使用多线程下载文章
  • 能够识别新闻网站的URL
  • 能够从网页中提取文本和图片,并且从文本中提取关键词、摘要和作者

Newspaper下载安装

Python-goose框架

goose本身是用Java语言编写的用于提取文章的框架,Python-goose是用Python语言对goose框架的重新实现。Python-goose的设计目的是爬取新闻和网页文章,并从中提取以下内容:

  • 文章的主体
  • 文章中的图片
  • 文章中包含的所有YouTube/Vimeo视频
  • 元描述信息
  • 元标签

Python-goose框架下载安装

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ProgramStack

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值