爬虫一般来说两种,一种是页面分析,分析页面获取整理出数据,毕竟是要展示数据在页面,获取这些从页面上。另一种是获取对应接口,通过API方式来获取,因为归根到底,都是前台后端交互发送请求响应请求。
两种方式各有优劣,方式一应该是比较常见的,但是从页面提取数据分析是一个步骤,之前看过一些网站貌似是XX点评,一句话分了好几个部分,冷眼看上去就像是看HashSet数据一样,就是不想让你好好拿到数据。
第二种其实也常见,首先人家请求会给你混淆的,不可能让你很轻松的。除此之外,你还要知道一个签名的概念,签名就是通过一种机制将你数据加密起来,防止你篡改数据,大概过程如下:
base(时间 + token + id)
以下是一篇文章关于IOS的数字签名的路线(很多名词应该看上去很熟悉)
加密解密(对称DES 3DES AES、非对称RSA)--->单向散列函数(MD4、MD5、SHA1-3)--->数字签名--->证书--->签名机制
实际上直到人家加密方式,和加密过程已经迈出了一大步了。关键还要拿到这个token(一般来说肯定会弄一个token的,没有的话那就直接可以搞了),这时候通过工具无状态的可以注意下cookie,有状态可以注意seesion看里面有没有想要的。
公众号:我是坑货