自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 使用mitmproxy批量获取公众号文章以及点赞、评论等数据

近期在研究微信公众号文章的抓取方案。之前觉得就是单纯的文章内容加上若干个API就完了,但检查后才发现没那么简单,毕竟和普通的网站不是一回事。后来在网上搜索和测试了很久才终于打通了一条路。虽然不完美,但至少实现了。单批获取文章大概在50页左右,无论如何睡眠等待均未有明显效果。解决方式:使用多个微信公众号的cookie,堆号使用Appium自动点击,速度慢。暂未想到更好的方法。通过这几天的实践,熟悉了mitmproxy、appium以及mongodb的使用,基本实现了自动化获取文章信息。

2023-12-08 15:32:33 1305

原创 【爬虫实战】使用Python和JS逆向基于webpack的看准网

之前学习了一个基于webpack的网站,接下来再来一个加深一下印象。看准网为用户提供以下信息:企业基本信息、企业评价、薪酬资讯、面试经验、招聘职位等。不管这个网站的数据是否可靠,总之我们只是用来学习一下而已。代码很简单,但是在JSON序列化这一块坑了很久,还是经验问题。通过这次练习进一步加深了对webpack类的定位方法的使用。当然不一定非要用这种方式,如开头所说,方式有多种,哪个有效用哪个。其实对于这种网站,只要逆向成功一个接口,其他的接口加密方式基本一致,试了一下其他的接口比如job。

2023-11-28 09:40:50 3659

原创 【爬虫实战】使用Python和JS逆向基于webpack的虚拟货币平台

之前遇到过很多常规的网站,接下来尝试一下分析使用webpack的网站。本文主要介绍了对于使用webpack打包技术的这一类网站的逆向方法和思路。当然对于逆向JS有很多种方式,根据webpack的规则来定位函数只是其中一条路,也不是非走不可。

2023-11-27 17:00:13 2737

原创 【爬虫实战】使用Python和JS逆向问财网定位构建动态数据的位置

之前讨论过一些常规的加密套路,比如特定的参数但是可以在全局中搜索到。但还有一种情况是动态的数据,动态的参数值,在代码里根本搜不到。以问财网为例,简单分析一下。以这个页面为例,搜索一些问句会返回一些股票的信息。接下来寻找目标接口,可以看到响应数据中找到了对应的字段,那么就可以确定就是这个接口了。既然确定了接口,就可以分析接口了。有几个需要注意的字段:可以看到载荷中有很多字段,有随机生成的,也有写死的,至于能不能用,可以先试试。

2023-11-22 11:07:21 7583

原创 【爬虫实战】使用Python和JS逆向观鸟网Search接口

中国观鸟记录中心,这个网站有点特殊,不同于平时常见的网站,header的部分字段和响应数据都是加密的。最重要的是加密方式是在Ajax中处理的。综上所述,记录一下这类网站的逆向过程。首先就是加密算法的自定义,之前没想到过,以为是版本问题其次就是在加密函数那里,首次调试的时候把变量写死了,导致后续调用的时候总是验证失败经过这个网站的分析,增长了不少经验,也获取了更高效的技巧。

2023-11-21 11:25:06 9088 13

原创 【爬虫实战】使用Python和JS逆向获取易车网汽车参数详情

有的网站请求参数或者URL是明文的,但是有些是加密后的。接下来以易车网为例,巩固一下逆向思路。今天分析JS逻辑的时候在md5这一块卡了很久,主要原因如下;起初看到进行MD5处理的时候怀疑了一下是不是基础的MD5,有没有进行特殊处理。为了图省事,直接问的GPT。结果这家伙输出了和控制台不一致的值,所以就当成JS特殊处理了。因此就把相关的函数单独拉出来进行处理,生成Sign值后传给python。但最后一直校验失败,百思不得其解。后来又多次反复查看使用Python生成MD5值后才发现了GPT的问题。

2023-11-17 17:36:27 11452 3

原创 【爬虫实战】使用Python和JS两种方式逆向网易云音乐接口并下载歌曲

目前绝大部分网站只提供在线听歌的功能,几乎都无法下载,就算能下载也不能直接播放或者需要使用专有的播放器。那么如何获取歌曲的源文件呢?接下来以网易云为例下载某一首歌。本文使用两种JS逆向的方式,便于不同场景的学习和使用。在网易云音乐的首页可以搜索也可以直接点击播放,然后就会进入一个歌曲的单独页面。以当前歌曲为例,可以看到当点击播放的时候会出现很多请求的接口,接下来一个接口一个接口的看,直到发现和歌曲下载有关的那一个为止。最后定位到了这个接口。并且接口返回值里有一个URL为,这是一个m4a文件。

2023-11-16 17:55:35 17400 1

原创 【爬虫实战】逆向某公众平台登录接口

该网站的密码的加密逆向很简单,加密的函数也比较少。其实很多时候对于逆向来说,最终能实现功能才是最重要的,实现的方法和过程并不重要。可以说用Python代码用个半小时完全重写一遍,当然也可以几分钟直接调用JS得到结果,两者之间并没有高低之分。在解决逆向问题的时候一定要先定位到准确的位置,否则就是南辕北辙。

2023-11-15 14:03:52 15763

原创 使用crypto-js逆向某小说网站

逆向某小说网站的加密接口,获取响应内容。

2023-11-06 14:36:37 46376

原创 为什么你的爬虫能被识别到?

反爬机制是网站和服务器采用的方法,用于防止恶意爬虫和机器人访问其内容或资源。请注意,这些反爬机制可能会影响合法的网络爬虫和数据采集。爬虫开发者需要遵守网站的规则和政策,确保他们的活动是合法的,并避免过度频繁地请求网站。

2023-10-18 14:09:22 77032

原创 爬虫的一些基本认知

爬虫是一种自动化获取网络数据的程序,也称为网络爬虫、网络蜘蛛、网站爬虫等。爬虫能够模拟人类对网络数据的访问,通过程序代码自动访问互联网,并从中提取有用信息。爬虫工作原理:爬虫通过模拟浏览器访问网站,解析页面,获取所需数据,并对数据进行处理和存储。爬虫分类:按照爬取的数据类型可分为通用爬虫、聚焦爬虫、增量式爬虫等。按照爬取的方式可分为基于规则的爬虫和基于机器学习的爬虫等。

2023-10-16 09:26:37 61572

使用Python获取小红书的几千条一级评论+二级评论+展开评论

根据笔记的URL获取所有的评论后并生成CSV文件,常规版,未用异步的方式,只需要替换自己的cookie既可。 评论内容包含以下内容: 笔记链接 页码 评论者昵称 评论者ID 评论者主页链接 评论时间 评论IP属地 评论点赞数 评论级别 评论内容

2023-12-06

Python爬虫-批量获取商品价格

内容概要:使用Python批量获取长江现货中的商品价格,并且以text的形式存储。如果需要获取更多数据,可以修改脚本选择更多产品。 适合人群:爬虫初学者或者有一定自学能力的人。参考脚本实现更多数据的抓取。 能学到什么:可以学习爬虫的基本思路和初级的反爬知识,应对一些简单的网站是轻而易举的。

2023-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除