爬虫小恐龙-CSDN博客

原创使用mitmproxy批量获取公众号文章以及点赞、评论等数据

近期在研究微信公众号文章的抓取方案。之前觉得就是单纯的文章内容加上若干个API就完了，但检查后才发现没那么简单，毕竟和普通的网站不是一回事。后来在网上搜索和测试了很久才终于打通了一条路。虽然不完美，但至少实现了。单批获取文章大概在50页左右，无论如何睡眠等待均未有明显效果。解决方式：使用多个微信公众号的cookie，堆号使用Appium自动点击，速度慢。暂未想到更好的方法。通过这几天的实践，熟悉了mitmproxy、appium以及mongodb的使用，基本实现了自动化获取文章信息。

2023-12-08 15:32:33 1305

原创【爬虫实战】使用Python和JS逆向基于webpack的看准网

之前学习了一个基于webpack的网站，接下来再来一个加深一下印象。看准网为用户提供以下信息：企业基本信息、企业评价、薪酬资讯、面试经验、招聘职位等。不管这个网站的数据是否可靠，总之我们只是用来学习一下而已。代码很简单，但是在JSON序列化这一块坑了很久，还是经验问题。通过这次练习进一步加深了对webpack类的定位方法的使用。当然不一定非要用这种方式，如开头所说，方式有多种，哪个有效用哪个。其实对于这种网站，只要逆向成功一个接口，其他的接口加密方式基本一致，试了一下其他的接口比如job。

2023-11-28 09:40:50 3659

原创【爬虫实战】使用Python和JS逆向基于webpack的虚拟货币平台

之前遇到过很多常规的网站，接下来尝试一下分析使用webpack的网站。本文主要介绍了对于使用webpack打包技术的这一类网站的逆向方法和思路。当然对于逆向JS有很多种方式，根据webpack的规则来定位函数只是其中一条路，也不是非走不可。

2023-11-27 17:00:13 2737

原创【爬虫实战】使用Python和JS逆向问财网定位构建动态数据的位置

之前讨论过一些常规的加密套路，比如特定的参数但是可以在全局中搜索到。但还有一种情况是动态的数据，动态的参数值，在代码里根本搜不到。以问财网为例，简单分析一下。以这个页面为例，搜索一些问句会返回一些股票的信息。接下来寻找目标接口，可以看到响应数据中找到了对应的字段，那么就可以确定就是这个接口了。既然确定了接口，就可以分析接口了。有几个需要注意的字段：可以看到载荷中有很多字段，有随机生成的，也有写死的，至于能不能用，可以先试试。

2023-11-22 11:07:21 7583

原创【爬虫实战】使用Python和JS逆向观鸟网Search接口

中国观鸟记录中心，这个网站有点特殊，不同于平时常见的网站，header的部分字段和响应数据都是加密的。最重要的是加密方式是在Ajax中处理的。综上所述，记录一下这类网站的逆向过程。首先就是加密算法的自定义，之前没想到过，以为是版本问题其次就是在加密函数那里，首次调试的时候把变量写死了，导致后续调用的时候总是验证失败经过这个网站的分析，增长了不少经验，也获取了更高效的技巧。

2023-11-21 11:25:06 9088 13

原创【爬虫实战】使用Python和JS逆向获取易车网汽车参数详情

有的网站请求参数或者URL是明文的，但是有些是加密后的。接下来以易车网为例，巩固一下逆向思路。今天分析JS逻辑的时候在md5这一块卡了很久，主要原因如下；起初看到进行MD5处理的时候怀疑了一下是不是基础的MD5，有没有进行特殊处理。为了图省事，直接问的GPT。结果这家伙输出了和控制台不一致的值，所以就当成JS特殊处理了。因此就把相关的函数单独拉出来进行处理，生成Sign值后传给python。但最后一直校验失败，百思不得其解。后来又多次反复查看使用Python生成MD5值后才发现了GPT的问题。

2023-11-17 17:36:27 11452 3

原创【爬虫实战】使用Python和JS两种方式逆向网易云音乐接口并下载歌曲

目前绝大部分网站只提供在线听歌的功能，几乎都无法下载，就算能下载也不能直接播放或者需要使用专有的播放器。那么如何获取歌曲的源文件呢？接下来以网易云为例下载某一首歌。本文使用两种JS逆向的方式，便于不同场景的学习和使用。在网易云音乐的首页可以搜索也可以直接点击播放，然后就会进入一个歌曲的单独页面。以当前歌曲为例，可以看到当点击播放的时候会出现很多请求的接口，接下来一个接口一个接口的看，直到发现和歌曲下载有关的那一个为止。最后定位到了这个接口。并且接口返回值里有一个URL为，这是一个m4a文件。

2023-11-16 17:55:35 17400 1

原创【爬虫实战】逆向某公众平台登录接口

该网站的密码的加密逆向很简单，加密的函数也比较少。其实很多时候对于逆向来说，最终能实现功能才是最重要的，实现的方法和过程并不重要。可以说用Python代码用个半小时完全重写一遍，当然也可以几分钟直接调用JS得到结果，两者之间并没有高低之分。在解决逆向问题的时候一定要先定位到准确的位置，否则就是南辕北辙。

2023-11-15 14:03:52 15763

原创使用crypto-js逆向某小说网站

逆向某小说网站的加密接口，获取响应内容。

2023-11-06 14:36:37 46376

原创为什么你的爬虫能被识别到？

反爬机制是网站和服务器采用的方法，用于防止恶意爬虫和机器人访问其内容或资源。请注意，这些反爬机制可能会影响合法的网络爬虫和数据采集。爬虫开发者需要遵守网站的规则和政策，确保他们的活动是合法的，并避免过度频繁地请求网站。

2023-10-18 14:09:22 77032

原创爬虫的一些基本认知

爬虫是一种自动化获取网络数据的程序，也称为网络爬虫、网络蜘蛛、网站爬虫等。爬虫能够模拟人类对网络数据的访问，通过程序代码自动访问互联网，并从中提取有用信息。爬虫工作原理：爬虫通过模拟浏览器访问网站，解析页面，获取所需数据，并对数据进行处理和存储。爬虫分类：按照爬取的数据类型可分为通用爬虫、聚焦爬虫、增量式爬虫等。按照爬取的方式可分为基于规则的爬虫和基于机器学习的爬虫等。

2023-10-16 09:26:37 61572

使用Python获取小红书的几千条一级评论+二级评论+展开评论

根据笔记的URL获取所有的评论后并生成CSV文件，常规版，未用异步的方式，只需要替换自己的cookie既可。评论内容包含以下内容：笔记链接页码评论者昵称评论者ID 评论者主页链接评论时间评论IP属地评论点赞数评论级别评论内容

2023-12-06

Python爬虫-批量获取商品价格

内容概要：使用Python批量获取长江现货中的商品价格，并且以text的形式存储。如果需要获取更多数据，可以修改脚本选择更多产品。适合人群：爬虫初学者或者有一定自学能力的人。参考脚本实现更多数据的抓取。能学到什么：可以学习爬虫的基本思路和初级的反爬知识，应对一些简单的网站是轻而易举的。

2023-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人