爬虫案例
文章平均质量分 90
爬虫小恐龙
这个作者很懒,什么都没留下…
展开
-
使用mitmproxy批量获取公众号文章以及点赞、评论等数据
近期在研究微信公众号文章的抓取方案。之前觉得就是单纯的文章内容加上若干个API就完了,但检查后才发现没那么简单,毕竟和普通的网站不是一回事。后来在网上搜索和测试了很久才终于打通了一条路。虽然不完美,但至少实现了。单批获取文章大概在50页左右,无论如何睡眠等待均未有明显效果。解决方式:使用多个微信公众号的cookie,堆号使用Appium自动点击,速度慢。暂未想到更好的方法。通过这几天的实践,熟悉了mitmproxy、appium以及mongodb的使用,基本实现了自动化获取文章信息。原创 2023-12-08 15:32:33 · 1111 阅读 · 0 评论 -
【爬虫实战】使用Python和JS逆向基于webpack的虚拟货币平台
之前遇到过很多常规的网站,接下来尝试一下分析使用webpack的网站。本文主要介绍了对于使用webpack打包技术的这一类网站的逆向方法和思路。当然对于逆向JS有很多种方式,根据webpack的规则来定位函数只是其中一条路,也不是非走不可。原创 2023-11-27 17:00:13 · 2647 阅读 · 0 评论 -
【爬虫实战】使用Python和JS逆向问财网定位构建动态数据的位置
之前讨论过一些常规的加密套路,比如特定的参数但是可以在全局中搜索到。但还有一种情况是动态的数据,动态的参数值,在代码里根本搜不到。以问财网为例,简单分析一下。以这个页面为例,搜索一些问句会返回一些股票的信息。接下来寻找目标接口,可以看到响应数据中找到了对应的字段,那么就可以确定就是这个接口了。既然确定了接口,就可以分析接口了。有几个需要注意的字段:可以看到载荷中有很多字段,有随机生成的,也有写死的,至于能不能用,可以先试试。原创 2023-11-22 11:07:21 · 7447 阅读 · 0 评论 -
【爬虫实战】使用Python和JS逆向观鸟网Search接口
中国观鸟记录中心,这个网站有点特殊,不同于平时常见的网站,header的部分字段和响应数据都是加密的。最重要的是加密方式是在Ajax中处理的。综上所述,记录一下这类网站的逆向过程。首先就是加密算法的自定义,之前没想到过,以为是版本问题其次就是在加密函数那里,首次调试的时候把变量写死了,导致后续调用的时候总是验证失败经过这个网站的分析,增长了不少经验,也获取了更高效的技巧。原创 2023-11-21 11:25:06 · 8935 阅读 · 13 评论 -
【爬虫实战】使用Python和JS逆向获取易车网汽车参数详情
有的网站请求参数或者URL是明文的,但是有些是加密后的。接下来以易车网为例,巩固一下逆向思路。今天分析JS逻辑的时候在md5这一块卡了很久,主要原因如下;起初看到进行MD5处理的时候怀疑了一下是不是基础的MD5,有没有进行特殊处理。为了图省事,直接问的GPT。结果这家伙输出了和控制台不一致的值,所以就当成JS特殊处理了。因此就把相关的函数单独拉出来进行处理,生成Sign值后传给python。但最后一直校验失败,百思不得其解。后来又多次反复查看使用Python生成MD5值后才发现了GPT的问题。原创 2023-11-17 17:36:27 · 11416 阅读 · 3 评论 -
【爬虫实战】使用Python和JS两种方式逆向网易云音乐接口并下载歌曲
目前绝大部分网站只提供在线听歌的功能,几乎都无法下载,就算能下载也不能直接播放或者需要使用专有的播放器。那么如何获取歌曲的源文件呢?接下来以网易云为例下载某一首歌。本文使用两种JS逆向的方式,便于不同场景的学习和使用。在网易云音乐的首页可以搜索也可以直接点击播放,然后就会进入一个歌曲的单独页面。以当前歌曲为例,可以看到当点击播放的时候会出现很多请求的接口,接下来一个接口一个接口的看,直到发现和歌曲下载有关的那一个为止。最后定位到了这个接口。并且接口返回值里有一个URL为,这是一个m4a文件。原创 2023-11-16 17:55:35 · 17244 阅读 · 1 评论 -
【爬虫实战】逆向某公众平台登录接口
该网站的密码的加密逆向很简单,加密的函数也比较少。其实很多时候对于逆向来说,最终能实现功能才是最重要的,实现的方法和过程并不重要。可以说用Python代码用个半小时完全重写一遍,当然也可以几分钟直接调用JS得到结果,两者之间并没有高低之分。在解决逆向问题的时候一定要先定位到准确的位置,否则就是南辕北辙。原创 2023-11-15 14:03:52 · 15717 阅读 · 0 评论 -
使用crypto-js逆向某小说网站
逆向某小说网站的加密接口,获取响应内容。原创 2023-11-06 14:36:37 · 46348 阅读 · 0 评论