python爬虫基本思路

最新推荐文章于 2021-06-23 11:32:47 发布

Laicaling

最新推荐文章于 2021-06-23 11:32:47 发布

阅读量493

点赞数

分类专栏：网络爬虫数据采集 http代理

本文链接：https://blog.csdn.net/Laicaling/article/details/107670344

版权

本文介绍了Python爬虫的基本思路，包括爬取、解析、存储、反爬和使用代理等环节。针对网页服务端和客户端渲染，App的普通接口到加密内容接口，以及多种解析和存储方法进行了详细阐述。此外，还分享了如何使用代理IP来应对网站的反爬策略，提高爬虫的稳定性和效率。

摘要由CSDN通过智能技术生成

ython爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化，爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫的初级阶段，添加headers和ip代理可以解决很多问题。
爬虫的基本思路：
1.爬取
对于爬取来说，我们需要学会使用不同的方法来应对不同情景下的数据抓取任务。
爬取的目标绝大多数情况下要么是网页，要么是 App，所以这里就分为这两个大类别来进行了介绍。
对于网页来说，我又将其划分为了两种类别，即服务端渲染和客户端渲染，对于 App 来说，我又针对接口的形式进行了四种类别的划分——普通接口、加密参数接口、加密内容接口、非常规协议接口。
所以整个大纲是这样子的：
• 网页爬取
• 服务端渲染
• 客户端渲染
• App 爬取
• 普通接口
• 加密参数接口
• 加密内容接口
• 非常规协议接口
2、解析
对于解析来说，对于 HTML 类型的页面来说，常用的解析方法其实无非那么几种，正则、XPath、CSS Selector，另外对于某些接口，常见的可能就是 JSON、XML 类型，使用对应的库进行处理即可。
3、存储
存储，即选用合适的存储媒介来存储爬取到的结果，这里还是分为四种存储方式来进行介绍。
• 文件，如 JSON、CSV、TXT、图⽚、视频、⾳频等，常用的一些库有 csv、xlwt、json、pandas、pickle、python-docx 等。
• 数据库，分为关系型数据库、非关系型数据库，如 MySQL、MongoDB、HBase 等，常用的库有 pymysql、pymssql、redis-py、pymongo、py2neo、thrift。

最低0.47元/天解锁文章

Laicaling

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫基本思路

ython爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化，爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫的初级阶段，添加headers和ip代理可以解决很多问题。爬虫的基本思路：1.爬取对于爬取来说，我们需要学会使用不同的方法来应对不同情景下的数据抓取任务。爬取的目标绝大多数情况下要么是网页，要么是 App，所以这里就分为这两个大类别来进行了介绍。对于网页来说，我又将其划分为了两种类别，即服务端渲染和客户端渲染，对于 App 来说，我又针对接口的形式进行了四种类别的划
复制链接

扫一扫

专栏目录