![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MySpider
文章平均质量分 67
井蛙不可语于海
需要成品加我企鹅 私信一天一回
展开
-
企鹅h5充值encrypt_msg h5 1.0.21补环境算法
如图 主要的加密参数就是这个版本号为H5_1.0.21的encrypt_msg参数这次采用的方式为jsdom补环境需要注意的是 我们得从前置页面(https://pay.qq.com/h5/index.shtml?xxxx)拿到关键的入参 用正则匹配出ops大数组以及用户信息openId/openKey等参数成品运行图EndingGithub传送门持续更新ing (欢迎各种star与fork)联系方式: 442891187(QQ)如有权益问题可以发私信联系我删除原创 2023-11-17 14:19:52 · 429 阅读 · 0 评论 -
网络爬虫-网易易盾滑块验证码
网易易盾滑块验证码acToken,cb参数分析原创 2023-07-19 15:57:13 · 3392 阅读 · 1 评论 -
网络爬虫-jd滑块验证码
网络爬虫-jd滑块验证码-附带轨迹算法原创 2023-07-10 14:39:03 · 2226 阅读 · 2 评论 -
网络爬虫-tx滑块验证码
滑块验证码原创 2022-11-02 15:23:32 · 6520 阅读 · 7 评论 -
网络爬虫-h5支付encrypt_msg参数逆向
encrypt_msg原创 2022-01-11 16:37:31 · 3472 阅读 · 3 评论 -
网络爬虫-破解顶象滑块验证码
仅供研究学习使用。今天带来的是dx滑块验证码的逆向目标站 --> 传送门解决此类验证码 首先要解决滑动距离的判定 无论是使用selenium还是使用协议的方式来破解 都绕不开滑动距离的识别滑动距离可以参考以前我博客上的方式,或者找一找开源的一些算法,正常的pillow+cv2就可以搞定。废话不多说我们直接进入正题。 先抓包分析接口不难分析 ak为固定参数 类似于极验中的gt 我们主要需要分析的加密参数为ac找到ac初始化的地方,发现就是传入一个图片的token看下ua赋值操作原创 2022-01-07 16:36:13 · 4440 阅读 · 4 评论 -
网络爬虫-苏宁易购api_sign参数逆向解析
失踪人口回归~~~今天给大家带来的是一个简单的js加密分析,废话不多说,先上目标站[定向传送门](https://detail.vip.com/detail-1710615076-6919201301694309444.html我们的目标就是采集到这个累计热卖xxx件。 右键查看源码可以发现并没有藏在静态的HTML中,可以分析出是通过XHR传递到页面上的,所以接下来我们进行抓包操作。可以很轻松地找到这个接口,发现返回的数据里面有我们需要的,然后开始分析这个接口里面的参数,很明显我们发现了api_s原创 2021-07-12 18:40:36 · 1109 阅读 · 3 评论 -
网络爬虫-破解极验三代滑动验证码
什么是“极验”?如果你是从事爬虫相关工作的,那么一定对这两个字不会陌生的。极验是首家「行为式验证」安全技术服务提供商,并以提供验证码服务而闻名。我们日常会登录一些网站,有的网站登录前需要校验验证码,而这个验证码服务很可能就是极验提供的。我们直接进入正题如图所示 这个在登陆面前的拦路虎 便是大名鼎鼎的极验滑块验证码了看到这里 有点基础的小伙伴 应该马上能想到用selenium来模拟人为拖动滑块来解决,这确实是一个不错的方法,在需求量较小的情况下,不失为一个优先的选择,但它的缺点也十分明显:一是原创 2020-12-25 17:07:05 · 4401 阅读 · 0 评论 -
网络爬虫-某水利建设市场平台(滑块验证码破解)
刚过完端午节! 节后回归一波,发一波之前的库存~直接进入主题 目标站 水利建设市场监管平台触发验证码 --> 首页 --> 从业人员 --> 随便点个人名的链接,如图可以看到就是很普通的滑块验证码,我们今天不用selenium的方式去解决了,换个思路,用js的方式去解决,主要是这个网站的验证码简单,拿来当demo也比较适用。ok 万事先抓包 我们先看看未通过的是怎么样的包 如图然后再看看通过后的 如图ok 很明显 可以看见post的数值就只有3个xpos显然是缺口位置原创 2020-06-28 18:19:07 · 1155 阅读 · 2 评论 -
网络爬虫-今日头条__ac_signature参数逆向(第二弹)
今天要讲的是今日头条web版的__ac_signature参数逆向这次应该是最近刚更新的一个反爬,受朋友委托帮忙查看,跟上次的解决方式差不多,算法方面基本一致。先放上一篇文章的链接网络爬虫-今日头条_signature参数逆向具体如何找到加密算法以及断点调试等可以参考上一篇文章,我这边主要讲一下有哪些坑吧。从上一篇的接口中我们可以拿到一些比如“https://www.toutiao.com/i6824014300391145991/”这样的详情页链接,当我们通过session去访问这些链接的时候 会原创 2020-05-11 18:45:31 · 7421 阅读 · 10 评论 -
网络爬虫-拼多多anti_content参数逆向分析
失踪人口回归深夜第二弹拼夕夕的anti_content参数逆向分析(0ao开头)直接上链接 --> 拼多多首先进行基操,随便搜索个关键词并抓包可以发现第一次搜索的时候并没有什么加密,真正的anti_content参数是在我们拉动下拉框(等同于翻页)操作加载数据触发接口时才有的。实际上除了anti_content以外其他参数都是要么在第一次访问首页时返回了或者直接写成固定值就ok...原创 2020-03-17 01:00:35 · 9170 阅读 · 12 评论 -
网络爬虫-今日头条_signature参数逆向(第一弹)
失踪人口回归ing今天要讲的是今日头条web版的_signature参数逆向直接上链接 --> 今日头条首先随便点开一个版本,这里点的是娱乐,抓包看看结果。可以很清晰地看到首页html源码里面并没有上图中的关键字"古巨基",可以初步判断是异步加载的数据,所以接着往后面找找接口。不难找到这个接口,可以看到data里面的数据就是网页上所展示的了,所以可以确定这个接口就是用来拿数据...原创 2020-03-17 00:00:59 · 14636 阅读 · 21 评论 -
网络爬虫-抓取全国高校名单(分区域)
参考链接: 从人人网获取全国中学信息(省市县)主要代码为参考+改进上面博客的原创,在人人网的select弹框form里面抓取出全国高校名单.主要代码块如下def getProvinceData(): content = open("./cityArray.js", encoding='utf-8') # 分离出市级id和名称 partten = re.compil...原创 2019-11-11 15:17:40 · 1263 阅读 · 0 评论 -
Scrapy设置随机USER_AGENT
设置随机User-Agent 既然要用到随机User-Agent,那么我们就要手动的为我们的爬虫准备一批可用的User-Agent,因此首先在settings.py文件中添加如下的信息。MY_USER_AGENT = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1...原创 2018-07-28 14:55:27 · 12981 阅读 · 0 评论 -
网络爬虫-58同城·招聘联系电话js解密
一个简单的cryptojs加密的网站,58同城·招聘的隐藏电话号码 如下图示注意,58招聘查看联系方式是需要登录授权的,所以前面的步骤一一省略,仅分析抓包请求,如何通过requests拿到我们想要的电话号码接下来进行抓包分析,我们点击电话沟通,看看是加载了哪些请求不难发现 这个异步请求给我们返回了一个值 virtualNum 虚拟电话号码 于是可以联想到这个数据是经过了加密的 于是接下来...原创 2019-03-29 12:09:16 · 17980 阅读 · 7 评论 -
网络爬虫-爬取有效机构查询网(CNAS)全量数据
目标网站 --> 有效机构查询网需求如下:咋一看 不太难 全是静态html 且数据也都是规则的 这时候xpath工程师的作用就体现了!于是乎先开始抓接口 查询接口这里出现了个验证码 而且是会后端验证的(有那种只是前端验证不给后端验证的忽悠人的验证码) 还好是普通的数英验证码 直接调用我以前的接口就行 headers = { "User-A...原创 2019-04-26 11:42:44 · 23234 阅读 · 2 评论 -
网络爬虫-一键转换爬虫请求头headers(Fillder/各大浏览器适用)
程序员都是懒惰的~这个是真理!于是有了这个一键转换请求头的神器,平时厌烦了打单双引号,逗号的童鞋可以偷懒了,咱做爬虫的,也挺不容易的~直接贴代码 -->(原理很简单,目前测试了fiddler和浏览器的请求头)import jsondef get_header(headers): hs = headers.split('\n') b = [k for k in h...原创 2019-05-06 15:55:52 · 16773 阅读 · 1 评论 -
网络爬虫-上传爬虫文件至阿里云OSS(以视频/图片为例)
OSS 的作用这个OSS 存储能够帮助我们完成很多新的需求 , 如果你是土豪你可以把它当成一个网盘来使用,如果你是个后端开发者那么恭喜你,你就相当于有了一台静态资源服务器 ! 你可以把图片以及静态页面放到这里 ! 通过OSS获取需要的资源,从而减少服务器的IO操作~,不止如此,一些视频类的网站还可以把需要保持的视频存储到这里,OSS还为我们提供了很多图片处理API,包括防盗链、水印…阿里云对象...原创 2019-05-29 17:43:30 · 12739 阅读 · 0 评论 -
网络爬虫--记一次有趣的侦察型反爬手段(ebay)
起因: 偶然在群里看到一位小老弟的求助 说是某电商网站对手机号进行了反爬,我寻思之前也写过58电话解密的 就助(mian)人(wei)为(qi)乐(nan)地看一下吧ebay网站地址进去抓包一看 几百个请求 唰唰唰的由于被误导了一波 以为是什么js或者异步加载的数据 于是去原网站点击加载电话号码那个按钮看了一会儿 然后又找了下请求包 发现似乎是没有任何数据进来奇怪的是 原html...原创 2019-06-21 16:47:21 · 12600 阅读 · 1 评论 -
网络爬虫-cnzz网站统计(umuuid参数加密破解)
总体来说算是比较easy的js加密 由于涉及到部分隐私 就简单说下该参数的加密思路以马蜂窝为例 该网站使用的是CNZZ统计流量首先抓包看参数,如图可以比较清晰地看到 cnzz的统计是发起的这个get请求然后看下这些参数 我们不确定的参数有 id / cnzz_eid / umuuid / rnd ,除了这几个 其他的应该都是常量或者可以轻易伪造的 如时间戳以及屏幕大小等为了搞清楚这几...原创 2019-07-09 18:27:11 · 14364 阅读 · 0 评论 -
网络爬虫-爱给音效素材网js逆向思路
失踪人口回归~~~今天的主角是:爱给音效素材网不得不说这是一个表面人畜无害,实则暗藏玄机的网站,js加密说不上复杂,但是能让你抓狂~我们以其中一个子页面为例:页面传送门接下来进行抓包分析可以发现在进行下载操作的时候,一共发出了两个请求,根据我们以往的经验,不难看出,第一个请求的请求体进行了一次加密,然后服务端返回的数据又进行了一次解密,得到第二个请求的参数或者链接,就可以下载了。...原创 2019-09-04 15:43:09 · 5377 阅读 · 13 评论 -
网络爬虫-计算型验证码破解
爬虫中最常见的反爬手段之一就是验证码,而我们平常所遇见的验证码最多的便是数英验证码,数英验证码可以有效地收集数据集并进行训练,达到靠谱的识别率,而另一个很常见的就是计算型验证码了,如下图示:这个验证码,咋一看,感觉上是十分简单的,因为简单的OCR识别就能很精准地识别它,但是我们该怎么做呢,先看这个图片是如何构成的。可以清晰地看到,这个验证码实际上是由4张图片所构成,即"9" “x” “1”...原创 2019-09-19 17:27:54 · 2148 阅读 · 1 评论 -
网络爬虫-cloudflare五秒等待验证逆向破解
Cloudflare是国外的一家安全防护公司,最近在很多网站上也看到了他的身影,比较明显的特征就是让你等待5秒钟以验证你是否是真实的浏览器。以 https://www.biovision.com/ 为例另一个明显的特征就是它的cookie里面会包含__cfduid, cf_clearance 这个两个字段。 如果你发现你访问的网站里有这些特征,那么毫无疑问他就是采用了 Cloudflare的...原创 2019-09-25 15:23:30 · 17453 阅读 · 19 评论 -
网络爬虫-icgoo电子元件网js加密破解分析
失踪人口回归~~~今天是帮一个小老弟看的一个比较简单的js加密网站,考虑到一部分童鞋对js加密这块还不太熟悉,我就简单地把思路和流程捋一捋。首先打开需要拿数据的页面 → 电子元件网AD620哗啦啦的就加载出来了 ,然鹅右键查看源码, 一看,果然没有页面上的数据,确诊动态js加载无疑。于是下一步就是万能的fiddler大法了。这些就是刷新页面所有的请求了,但框出来的这一部分是啥? 这个...原创 2019-03-14 17:52:09 · 14966 阅读 · 3 评论 -
网络爬虫-2018个人总结
概述忙里偷闲,趁着元旦休息的这几天,在2018年的最后一天,总结一下自己在这一年遇到过的多多少少的坑以及一些心得体会吧。粗略算下来,从事爬虫工程师这个岗位也算是一年有余了吧,从一个毛发旺盛的小伙,到一个即将面对秃头危机的油腻大叔,也只花了一年的时间~...原创 2018-12-31 18:29:50 · 12426 阅读 · 1 评论 -
网络爬虫-抓取1000W百度文库doc文档
今天抓取的是百度文库doc文档,但是要求确实随机的1000万份文档并存为txt文本,下载百度文库的开源项目已经有了,那么去哪里找到1000万个百度文库doc文档的url呢,并且在短时间内下载下来。因为爬虫是一个IO密集型业务,所以使用协程效率则最高,第一时间想到了gevent。首先分析百度文库的urlhttps://wenku.baidu.com/search?word=%BD%CC%CA%...原创 2018-12-10 17:46:09 · 12680 阅读 · 1 评论 -
网络爬虫-抓取酷航机票信息
今天抓取的是一家廉价航空公司的机票信息,该网站采用了收费的反爬虫服务,有兴趣的童鞋可以了解一下: distil networks当我抓该网站的post接口时,发现几个比较棘手的问题: 一. 不带cookie访问该网站的任意页面会被识别为机器人 二. cookie具有时效性,访问次数过多会被ban,一段时间后可继续使用 三. 无法使用selenium抓取数据,会被识别成机器人 四....原创 2018-08-14 21:44:21 · 13909 阅读 · 3 评论 -
网络爬虫-爬取飞常准航班信息
今天爬取的是一个航空公司网站的航班信息–飞常准 我们需要遍历抓取每一个航班里的所有信息 这里需要注意 有些列出来的航班可能不存在信息 需要进行一次判断 另外 访问过快会导致被该网站封号,解封会出现验证码,可以自己搭建免费ip代理池或使用收费代理 代码如下:import requestsimport jsonimport pytesseractimport rei...原创 2018-08-09 22:04:09 · 21967 阅读 · 9 评论 -
网络爬虫-爬取十万张表情包
最近和同事和朋友斗图斗得厉害,心想哪里来的这么多表情包,于是乎想着去表情包网站爬一波图片下来,便有了今天这边文章。话不多说,上图上代码!将这3540页表情包全部抓取下来,存到我的本地磁盘。spider.py# -*- coding: utf-8 -*-import scrapyfrom biaoqing.items import BiaoqingItemclass ...原创 2018-08-04 23:48:12 · 13660 阅读 · 3 评论 -
网络爬虫-爬取顶点小说网指定小说
需求是女朋友下发的(凌晨12:30): 帮我下载一部小说–医后倾仙(1979章-最新章节)打开电脑–打开百度–输入医后倾仙–打开我见到的第一个小说网站(顶点小说网)–敲代码import requestsimport reimport timefrom lxml import etree# //*[@id="list"]/dl/dd[1990]/a# headers =...原创 2018-07-30 01:20:13 · 11721 阅读 · 0 评论 -
常见USER_AGENT字符串集合
常见浏览器User-Agent字符串:OperaMozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60 Opera/8.0 (Windows NT 5.1; U; en) Mozilla/...原创 2018-07-28 14:51:51 · 14781 阅读 · 0 评论 -
Scrapy环境搭建
Win7系统下搭建Scrapy环境:1.进入cmd创建虚拟环境:python -m venv venv2.进入虚拟环境,安装scrapy的依赖包文件:以我电脑F盘创建的venv为例 →1.cd venv2.cd Scripts3.activte/deactivate (进入/退出 虚拟环境)4.cd ../..5.pip install C:\Users\Adm...原创 2018-06-30 17:31:12 · 12382 阅读 · 0 评论 -
网络爬虫-猫眼电影top100
最近爱上了写爬虫,接下来的一个月将更新多个爬虫的博文,同时也是记录自己在爬虫道路上的磕磕绊绊,学习和成长的历程。今天的爬虫是爬取猫眼电影top100,实现分页爬取,然后保存在本地txt文本上。url : http://maoyan.com/board/4?offset=1,通过分析和试验,发现猫眼电影的url里的offset参数代表着现实每页的第xx-xx排行,比如offset=1,则现实1-10...原创 2018-06-10 21:29:43 · 12537 阅读 · 0 评论 -
网络爬虫-今日头条-街拍
爬取今日头条里的街拍数据1.保存标题及图片URL到MongoDB2.保存图片到本地通过分析 今日头条街拍 的网页URL,可以发现其内容也是通过Ajax异步加载的,于是分析其API接口: https://www.toutiao.com/search_content/?offset=40&format=json&keyword=%E8%A1%97%E6%8B%8D...原创 2018-06-14 19:28:40 · 12746 阅读 · 0 评论 -
网络爬虫-微博主页内容(Ajax接口)
爬取通过异步加载的微博主页内容: [https://m.weibo.cn/u/5610887288](https://m.weibo.cn/u/5610887288)分析网页的内容,可以发现微博主页的加载后续是通过Ajax完成的,于是打开开发者工具(F12) -> network -> xhr 分析发现:'https://m.weibo.cn/api/container/getInde...原创 2018-06-13 20:08:49 · 12562 阅读 · 0 评论 -
网络爬虫-distil networks反爬虫服务
抓过大量数据的童鞋应该遇见过万恶的distil networks。 划重点,该公司的反爬服务是真的“牛逼”! 验证码是这样的 –> 一个是旋转图片,一个是播报语音,想想都难受,误伤率以及体验感都会很差,但是既然买了这个服务的公司,肯定也是数据十分珍贵吧,否则也不会冒着丢失客户的风险去搞这么个反爬虫服务。...原创 2018-08-22 18:24:42 · 30502 阅读 · 1 评论 -
网络爬虫-liunx环境下部署selenium+chromedriver
由于一些万恶的网站需要加载js才能抓取数据,我们只能使用selenium去抓取,我们知道selenium如何在windows上跑,只需要将正确对应版本的chromedriver放在Python路径下或者配置PATH环境变量即可。但是在linux环境下配置selenium+chrome需要配置的环境就很麻烦了,网上的教程也不太全面,我将我花了一天时间查阅的各种资料以及各种报错整理下来,供大家参考...原创 2018-08-24 11:36:30 · 15022 阅读 · 8 评论 -
网络爬虫-pyqt5绕过反爬服务
当遇到使用selenium被网站识别为robot的时候,首先考虑的是换chromedriver,geckodriver,iedriver等,如果都还行不通,那么可以尝试修改chromedriver源码: stackoverflow传送门如果都行不通那么请尝试使用pyqt5pyqt5不仅可以做界面,他还可以调用强大的QtWebKit模块,QtWebKit是一个基于开源项目 ,WebK...原创 2018-08-29 16:03:38 · 13449 阅读 · 1 评论 -
网络爬虫-使用requests上传multipart/form-data格式文件
由于以前没有使用requests上传过文件,所以今天在使用它上传文件的时候遇见了一个坑,接下来我们就来一层一层解析这个坑以科大讯飞官网上传音频文件为例首先是喜闻乐见地打开Fiddler进行抓包操作,流程也很简单,很快就抓下来了上传文件的这个包,见下图然后就进入了懵逼模式,content-type里面这个boundary是啥,以前咋没见过呢,还有data里面的这些个东西又是啥,还来乱码了,奇...原创 2018-11-19 18:22:33 · 22520 阅读 · 8 评论 -
网络爬虫-爬取指定城市空气质量检测数据
爬取指定城市空气质量检测数据网站链接 → https://www.aqistudy.cn/historydata/以月数据为例,见下图:然后我们通过console调试可以发现 这个网页在items里面已经将数据打包好了,如下图所示没毛病,数据全都对得上,接下来的思路就是利用拼接url的方法,使用selenium进入网页,利用selenium的注入js方法,直接让网页返回我们想要的数据源...原创 2018-11-15 11:15:44 · 15369 阅读 · 2 评论