爬虫的大概思路

最新推荐文章于 2021-07-08 19:20:17 发布

我是坑货

最新推荐文章于 2021-07-08 19:20:17 发布

阅读量274

点赞数

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/FeiChangWuRao/article/details/95650146

版权

0 篇文章 0 订阅

订阅专栏

爬虫一般来说两种，一种是页面分析，分析页面获取整理出数据，毕竟是要展示数据在页面，获取这些从页面上。另一种是获取对应接口，通过API方式来获取，因为归根到底，都是前台后端交互发送请求响应请求。

两种方式各有优劣，方式一应该是比较常见的，但是从页面提取数据分析是一个步骤，之前看过一些网站貌似是XX点评，一句话分了好几个部分，冷眼看上去就像是看HashSet数据一样，就是不想让你好好拿到数据。

第二种其实也常见，首先人家请求会给你混淆的，不可能让你很轻松的。除此之外，你还要知道一个签名的概念，签名就是通过一种机制将你数据加密起来，防止你篡改数据，大概过程如下：
base（时间 + token + id）

以下是一篇文章关于IOS的数字签名的路线（很多名词应该看上去很熟悉）

加密解密(对称DES 3DES AES、非对称RSA)--->单向散列函数(MD4、MD5、SHA1-3)--->数字签名--->证书--->签名机制

实际上直到人家加密方式，和加密过程已经迈出了一大步了。关键还要拿到这个token（一般来说肯定会弄一个token的，没有的话那就直接可以搞了），这时候通过工具无状态的可以注意下cookie，有状态可以注意seesion看里面有没有想要的。

公众号：我是坑货

关注

专栏目录