爬虫模拟实操-全平台模式化规范

一.总体概述

本套教程适用于还没进入爬虫界的宝宝们

这套流程基本涵盖了全平台(

x抖 x快 x头 xB x淘 x知 x红

)个人信息->作品->评论,为不侵权,有兴趣可以拉到最后进行交流

二.爬虫过程
随便拿个平台举例

老规矩f12

返回json数据格式的这个,进行json格式化发现评论数据

接口如下,一定要加referer,不然返回数据会为空

翻页逻辑

image-20240301182136635

二级评论逻辑

image-20240301182154982

多线程逻辑

image-20240301182239727

数据添加逻辑

image-20240301182320489

这里跟以往不同的是,我此次多加了日志逻辑,因为爬取的页数实在太多,就增设日志查看异常

image-20240301182432420

详情见代码

最后这张贴图是展示最后爬取过多导致的无数据回显情况,所以增设了[对应api数据为空,无法爬取]模块

image-20240301174033262

x站

image-20240812100939443

image-20240812101009410

image-20240812101046521

抖x

image-20240812101232330

image-20240812101144926

image-20240812101154050

这套流程基本涵盖了全平台个人信息->作品->评论

为防止侵权和打广告,此处不提供源码

关注  剑客古月的安全屋  获取 联系方式

直达连接 区块链-RUST实战篇(1)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值