python爬取网页内容不全_学习python爬虫scrapy框架，学习心路历程（一）

最新推荐文章于 2023-02-07 16:03:26 发布

weixin_39706491

最新推荐文章于 2023-02-07 16:03:26 发布

阅读量185

点赞数

文章标签： python爬取网页内容不全

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39706491/article/details/111628891

版权

本文介绍了Scrapy框架的基本概念，对比了Scrapy与request、bs4的区别，并列举了常见的Python爬虫框架。Scrapy是一个强大的、开源的Python爬虫框架，适合大型项目的开发。此外，还提到了crawley和portia框架作为补充。文章末尾作者分享了学习Scrapy的心路历程，并预告了后续章节将涉及框架的安装和使用经验。

摘要由CSDN通过智能技术生成

一丶scarpy框架是什么？

Scrapy 是一套基于基于Twisted的异步处理框架，纯python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便～

二丶scarpy框架与request、bs4的的区别

总结：

1.request和bs4初学容易上手，大型开发就比较麻烦，要自己造轮子，适合初学者偶尔有个需求。

2.scrapy初学麻烦，或者觉得它过于庞大，但是做项目后发现还是用轮子更方便，你能想到的小功能，它很多都封装好。

三丶常见的python爬虫框架

scrapy框架

scrapy框架是一套比较成熟的python爬虫框架，是使用python开发的快速、高层次的信息爬取框架，它的开发初衷就是屏幕抓取（更精确的说，是网络抓取），但是他还是可以用来访问API来提取数据，最重要的是，他是一款开源的框架，开源你懂的 !!!

crawley框架

高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。网上关于crawley框架的资料很少，不好搜索。

portia框架

portia框架就比较有意思了，他是一个可视化的爬虫工具，就算你不会python语言，你也可以用portia框架爬到你想要的数据，你不需要安装任何东西，因为他是在web里面执行。

四丶后面的话

第一章主要是了解了关于scarpy框架的一些信息和周边的信息，让自己有一个大概的了解，也是我学习框架的一种方式，希望大家能提出意见和建议，有好的学习方式希望大家再评论区交流，我也学习学习。

下一章主要是关于scarpy框架的一些安装，和我自己在使用scarpy框架时遇到的一些问题。和一些解决思路，希望大家多多支持。

weixin_39706491

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。