竞品数据抓取指南

最新推荐文章于 2025-04-24 19:45:00 发布

布道

最新推荐文章于 2025-04-24 19:45:00 发布

阅读量849

点赞数 1

分类专栏：感悟&&杂谈文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alex_xfboy/article/details/108871350

版权

感悟&&杂谈专栏收录该内容

27 篇文章

订阅专栏

谈起爬虫，一般人都会嗤之以鼻，没错，它本身不是一个很有挑战的技术活！当然，直到你读完本文内容可能会有所改观。本着技术服务于业务，业务需要的是供应商谈判助手，市场营销.....等等。

抓包有这么复杂吗？

没错，一般情况下我们直接爬取一个网页（html）或对方的接口是没什么难度，根据对方的规则进行即可，然后就是数据清洗，筛选出自己关注的产品制作报表即可。

技术上实现上没有太大的创新，无非就是关注2个点：

收集种子（生产url）
消费种子（消费url）

二者递归即可！下图就是笔者理解的一个分布式的爬虫架构图

然而，一些知名App的反爬都是非常健全的，要保障每天稳定的抓取，我们通常要面临以下问题：

比如要爬的是淘系产品，它的x-sign签名有可能是绕不过的坑，可能就要借助自动化（有可能需要多机触控）
ip请求频率限制，很多ip代理可以采购解决
android系统中安装的抓包软件啥都看不到（app上做了反代理策略），可能要借助vpn

到这里，再次温习网络知识（http/https）因为会遇到各种tcp/ip通讯上的错，接下来可以实操了！

实操环节

首先你需要搞好环境，android刷机、系统root、安装系统证书等等。

vpn：

shadowrocket，国内android好像不太行
Drony，还算比较稳

抓包软件：

charles，功能非常强大，不支持脚本
mitmproxy，功能也非常强大，支持脚本，运行不太稳定（偶尔会有些错）
fiddler，功能也非常强大，支持脚本，但不支持添加二次正向代理（出口网络）

实操其实没啥经验，对着每个软件的使用手册熟读几遍足以。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。