python爬虫分类

最新推荐文章于 2024-04-21 14:08:06 发布

tap_into

最新推荐文章于 2024-04-21 14:08:06 发布

阅读量493

点赞数

文章标签： python 爬虫数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tap_into/article/details/125893041

版权

最近做得爬虫相关的work较多、就此来聊聊关于python爬虫吧！爬虫一般分为垂直爬虫和通用爬虫。

通用爬虫：比如我们常见的爬取新闻网站、各种论坛帖子、财经类信息等都是属于通用爬虫。

此类爬虫的特点是量大、简单，有规律可循。技术难点在于怎么样优雅得去适配需要提取的内容，以及翻页的逻辑。因为你不可能每一个详情页都去写一个匹配规则。

所以对于通用爬虫，我们更注重于它的框架层面上的东西。至于框架的考虑，爬虫调度逻辑。去重、翻页、解析、存储、失败重试、代理ip、数据清洗等。比较好用的框架我是推荐scrapy<Scrapy 2.6 documentation Scrapy 2.6.1 documentation>。它适合高并发，而且功能多，也支持自己扩展功能等。是一个可以快速上手的，功能全面的框架！

scrapy架构图

至于垂直爬虫：

一般特点是一个应用一个爬虫，其中应用指的是app、一个网站等！难点在于与反爬虫做斗

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
python爬虫分类

所以对于通用爬虫，我们更注重于它的框架层面上的东西。至于框架的考虑，爬虫调度逻辑。这些加密参数都是放在So层的，你得逆向app然后找到关键代码，进行hook，这不是Java层得hook，所以你得看懂一些c。每次请求时得到加密参数即可，然后爬虫脚本携带上就可以获取自己想要的数据了。接下来有两种思路，对于需要破解的参数，你需要手动实现加密逻辑，这种显然不现实，而且工作量巨大。博主曾经做过简单的，也有加密比较复杂的，这里就举例说明比较难的吧。其中抖音难点在于它的加密参数有很多，不仅如此还有防抓包，你。...
复制链接

扫一扫

tap_into CSDN认证博客专家 CSDN认证企业博客

码龄6年

3: 原创

54万+: 周排名

60万+: 总排名

7万+: 访问

: 等级

294: 积分

12: 粉丝

28: 获赞

13: 评论

56: 收藏

私信

关注

热门文章

分类专栏

最新评论

python爬虫分类
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
html+css+js简单实现图片轮播效果
IT界小菜鸡: 这不行
html+css+js简单实现图片轮播效果
ahbvc_001: 棒大佬的文章，行云流水，字字珠玑，已关注收藏。
关于VMware虚拟机网络ping不通外网问题
qq_34199964: 谢谢楼主，是我的vm虚拟机服务没启动
html+css+js简单实现图片轮播效果
huanglinzhen: 憨憨

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。