爬虫的大概思路

爬虫一般来说两种,一种是页面分析,分析页面获取整理出数据,毕竟是要展示数据在页面,获取这些从页面上。另一种是获取对应接口,通过API方式来获取,因为归根到底,都是前台后端交互发送请求响应请求。

两种方式各有优劣,方式一应该是比较常见的,但是从页面提取数据分析是一个步骤,之前看过一些网站貌似是XX点评,一句话分了好几个部分,冷眼看上去就像是看HashSet数据一样,就是不想让你好好拿到数据。

第二种其实也常见,首先人家请求会给你混淆的,不可能让你很轻松的。除此之外,你还要知道一个签名的概念,签名就是通过一种机制将你数据加密起来,防止你篡改数据,大概过程如下:
base(时间 + token + id)

以下是一篇文章关于IOS的数字签名的路线(很多名词应该看上去很熟悉)

加密解密(对称DES 3DES AES、非对称RSA)--->单向散列函数(MD4、MD5、SHA1-3)--->数字签名--->证书--->签名机制

实际上直到人家加密方式,和加密过程已经迈出了一大步了。关键还要拿到这个token(一般来说肯定会弄一个token的,没有的话那就直接可以搞了),这时候通过工具无状态的可以注意下cookie,有状态可以注意seesion看里面有没有想要的。

公众号:我是坑货

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值