python爬取网页内容不全_学习python爬虫scrapy框架,学习心路历程(一)

本文介绍了Scrapy框架的基本概念,对比了Scrapy与request、bs4的区别,并列举了常见的Python爬虫框架。Scrapy是一个强大的、开源的Python爬虫框架,适合大型项目的开发。此外,还提到了crawley和portia框架作为补充。文章末尾作者分享了学习Scrapy的心路历程,并预告了后续章节将涉及框架的安装和使用经验。
摘要由CSDN通过智能技术生成

ed631b41be800ebb23f027dd661aa397.png

一丶scarpy框架是什么?

Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~

二丶scarpy框架与request、bs4的的区别

d5d42299dc6f1dd35d5e90bb95db8ec7.png

总结:

1.request和bs4初学容易上手,大型开发就比较麻烦,要自己造轮子,适合初学者偶尔有个需求。

2.scrapy初学麻烦,或者觉得它过于庞大,但是做项目后发现还是用轮子更方便,你能想到的小功能,它很多都封装好。

三丶常见的python爬虫框架

scrapy框架

scrapy框架是一套比较成熟的python爬虫框架,是使用python开发的快速、高层次的信息爬取框架,它的开发初衷就是屏幕抓取(更精确的说,是网络抓取),但是他还是可以用来访问API来提取数据,最重要的是,他是一款开源的框架,开源你懂的 !!!

crawley框架

高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等。网上关于crawley框架的资料很少,不好搜索。

portia框架

portia框架就比较有意思了,他是一个可视化的爬虫工具,就算你不会python语言,你也可以用portia框架爬到你想要的数据,你不需要安装任何东西,因为他是在web里面执行。

四丶后面的话

第一章主要是了解了关于scarpy框架的一些信息和周边的信息,让自己有一个大概的了解,也是我学习框架的一种方式,希望大家能提出意见和建议,有好的学习方式希望大家再评论区交流,我也学习学习。

下一章主要是关于scarpy框架的一些安装,和我自己在使用scarpy框架时遇到的一些问题。和一些解决思路,希望大家多多支持。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值