自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

风中的承诺

叶底藏花一度,梦里踏雪几回。

原创 抓包+逆向app分析protobuf

首先明确我们的目标。我们的最终目标是还原proto文件。并用python成功解析数据。 1.抓包分析 拿到一款app,首先抓包 如果协议头是application/x-protobuf,那么charles可以大致解析出来响应的文本。可以看到甚至连序号以及类型。注意这个前面的1,2,3不是char...

2020-06-20 10:20:35 251 0

原创 Android实现protobuf客户端

环境配置 1. 在项目根目录build.gradle下面添加protobuf-gradle-plugin插件 classpath 'com.google.protobuf:protobuf-gradle-plugin:0.8.8' 2. 在Module下 的build.gr...

2020-06-20 10:20:21 108 0

原创 Protobuf后台python实现

这里web框架选择flask。原因是简单,可快速编写demo。 pc环境: windows 1. 环境配置 1.1 安装python3 1.2 使用pip安装flask和protocbuf pip install flask pip install protobuf 1.3 配置protoc 去...

2020-06-20 10:20:01 76 0

原创 Android+Python实现protobuf通信系列

学习protobuf正向开发和逆向分析 学习成果记录一下,避免遗忘 protobuf简单介绍 python Flask实现protobuf后台 Android实现protobuf客户端 逆向app分析proto数据结构 还原proto数据结构。使用python模拟发送请求 第一篇(protob...

2020-06-20 10:19:41 45 0

原创 某app内容协议分析

qq阅读文章内容加密分析 首先,拿到一款app,二话不说,抓包。 这个就是它的文章详情的包。可以看到部分解码正常,部分乱码。这些它自定义的协议格式。乱码部分为文章内容。 看一下它的响应格式 使用了字节流传输。 接下来使用jadx打开它的app,分析一下。 这里采用逆向分析。 一般根据这些阅读...

2020-04-04 16:25:17 245 0

原创 java字节码与python字节码互转

def pb2jb(byte_arr): """ python字节码转java字节码 :param byte_arr: :return: """ return [int(i) - 256 i...

2020-03-26 23:25:46 108 0

原创 某讯滑块协议分析

腾讯滑动验证码协议分析 一如既往的先抓包。 这是其登录接口,登录接口中的这个值通过搜索可以发现,它是滑块认证成功后才返回的。 所以,今天主要就是分析这个接口。 这个接口的参数多达39个。以下是此接口部分截图 虽然参数很多,但是大部分都是无用参数,可固定,有些参数在其它接口也能直接找到。真正...

2020-02-19 22:45:21 355 0

原创 网易滑块协议分析(二)

这篇文章主要分析网易的滑块轨迹算法。也就是data是怎么生成的 我们全局搜索data,出现的地方很太多。我这里是直接搜m:"" 其中只涉及到3个js文件.这里我们优先选择带版本号的js文件,可以看到这个版本号跟验证滑块接口中的版本号是一致的。 点进去直接继续搜索 整个js...

2020-01-11 11:37:09 541 0

原创 网易滑块协议分析(一)

破解网易滑块 如图所示,再登录之前,需要先破解它的滑块,拿到它的关键参数 1. 抓包 首先打开抓包工具或者f12控制台,然后手动滑动,观察请求包的信息。 我们发现这是个get请求,下面具体看下它的请求参数 其中响应里的validate就是我们后面处理登录,需要用到的参数。只有滑动成功,才会返...

2020-01-11 11:36:23 933 8

原创 js混淆与反混淆

介绍几种js混淆方式

2019-12-26 23:24:51 230 1

原创 js调试小技巧

1. 使用Object.defineProperty监控对象值的变化 在一些js的加密中,我们往往不知道

2019-12-24 14:28:35 77 0

原创 识别滑块缺口位置

引言 目前互联网上很多网站都有滑块验证码验证。今天我要做的就是识别大部分滑块的缺口位置。 开始 现在的滑块缺口基本分为两种,一种是极验系的,提供原图和带缺口的背景图,另一种就是只有滑块图片和带缺口的背景图,网易系。 先感受一下它们的图片风格 极验系: 带缺口的背景图 完整背景图 网易系 带缺口...

2019-08-30 01:15:24 1233 2

原创 破解58同城字体反爬

1. 前言 最近接了一个私活,破解58同城的css反爬。现在决定把它开源出来,以便大家参考学习。 2. 主题 首先,打开页面,了解到这部分信息是有字体加密的。如下图: 这部分信息包含 性别 年龄 学历 还有工作经验。 这部分信息需要经过转换,才能达到我们想要的数据。 可以看到它数据加密部分,都...

2019-08-14 18:59:01 1191 2

原创 反爬之字体图片反爬

在前端中,字体图标具有 轻量,灵活,兼容性好等优点,但是没想到有公司拿他做反爬手段。例如抖音。 下面看下他怎么做的。 我们直接打开页面,在我划箭头的数字地方,抖音都应用了字体图标反爬。 接下来打开调试控制台,找到相应的css。 点击最右侧的css样式链接。 “@font-face” 是前端中定...

2019-07-03 11:58:24 354 0

原创 opencv截帧后获取图片流

使用opencv截帧后。 拿到ndarray的frame对象直接frame.tobytes()是不行的,直接写入文件或上传到其它地方打不开。需要赋予原始frame一种格式才行。 # frame 是ndarray对象,这里是把原始ndarray转成jpg的字节流,转成其它格式直接替换jpg即可 da...

2019-06-13 21:46:12 331 0

原创 doc批量转成docx(doc batch convert docx)

随便新建个word打开. 使用Alt+F11打开内置vba 点击上方插入—> 模块 在新窗口中粘贴复制如下代码 Sub ConvertDocToDocx() 'Updated by ExtendOffice 20181128 Dim xDlg As FileDialog...

2019-05-24 17:52:15 2324 0

原创 逆向js之解析响应加密信息

       前些时候,看到有人在群里发了一个网站,说是返回的data参数是加密信息, 无法解析data保存相关信息。 想到好久没写文章了,于是乎就去看了一下, 准备那这个当素材。        首先打开网站是这样的(...

2019-05-14 11:29:24 575 0

原创 爬虫应对反爬之css反爬

最近看到一个网站有css反爬,感觉比较有意思,这里就顺手破解一下,纯做技术分享 首先打开它的站点,感觉是个很low又没有任何反爬的站点,它长这样: 很单纯的列表页,此页面无任何反爬,直接分析拿到详情页的地址即可。有意思的来了… 任意打开一篇详情页文章 可以看到它是一个字一个字的显示...

2019-01-18 11:24:23 2790 0

原创 html文本保存为chm文档,并建立索引

上节讲解了如何抓取微信公众号文章,这节就来搞搞怎样保存,方便自己以后查阅。 这里我选择了chm。 有三个原因:     1.chm可以建立索引,查阅文章比较方便    &a...

2019-01-10 22:34:36 615 0

原创 Python爬取微信公众号文章

本篇文章使用到的技术: mitmdump + 电脑版微信 先分析 打开可视化抓包工具, 勾选https代理。然后打开电脑版微信 任意点击一个公众号,再点击查看历史消息 打开后这样 向下滑动右侧的滚动条,同时观察抓包软件,有新的数据加载即可停止滑动,仔细分析抓包软件的数据 ...

2019-01-09 19:46:45 3156 2

原创 美拍小视频去水印

分享一下逆向js的经验 进入美拍任意一个视频页面,通过F12控制台 通过点击顺序到js中,全局搜索mp4,可以找到一下代码 这里发现比较可疑,打个断点,重新刷新页面,断点到此处,然后点击下一步 断点来到6114行,把鼠标放到a上,可以发现,就是页面传过来的data-vi...

2018-12-13 21:36:21 1895 8

原创 airflow 修改中国时区(改airflow源码)

airflow默认使用utc时间,在中国时区需要用+8小时就是本地时间, 下面把airflow全面修改为中国时区,带大家改airflow源码 博主使用airflow版本是1.10.0,其它版本大同小异,参照修改即可 1. 先讲使用 pip安装apache-airflow 的修改方式 ...

2018-11-03 17:30:47 8559 19

原创 centos7 大数据任务调度系统airflow的安装(单机或分布式)

airflow的安装步骤1. 设置airflow的家目录位置2. 安装airflow3. 初始化airflow4. 修改mysql服务器的配置文件 my.cnf5. airflow建议两种运行方案 LocalExecutor或者CeleryExecutor6. 再次初始化数据库7. 启动web服务...

2018-10-26 09:52:16 1167 0

原创 pandas处理mongodb数据

使用pandas处理mongodb数据,转储为csv import pymongo import pandas as pd client = pymongo.MongoClient('192.168.116.215') cur = client["库名&quo...

2018-03-27 10:35:13 857 0

原创 opencv实现视频抽帧,作为其视频封面(python)

  在使用爬虫的过程中,爬到的视频没有视频封面,这时就需要我们手动给他添加一个视频封面,那么opencv就登场了,我们可以使用它抽取视频中的任意一帧保存下来,作为其视频封面 import cv2 def get_video_pic(name): cap = cv2.VideoCaptur...

2018-03-12 20:56:20 2707 2

原创 windows部署SpiderKeeper(爬虫监控)

博主部署SpiderKeeper环境是windows, 相信用Linux的同学部署起来也没有任何问题. 第一步:   mkvirtualenv 创建虚拟环境   Linux虚拟环境配置   Windows虚拟环境配置 第二步: workon spiderkeepe...

2018-02-07 05:05:33 6075 18

原创 centos 安装twisted 报错error: command 'gcc' failed with exit status 1

我的环境是 centos + python3.4 安装twisted报错,error: command ‘gcc’ failed with exit status 1 解决办法: yum install python34-devel 安装完了就好了,针对这个问题,网上的版本太多,但是好像...

2018-01-30 17:03:22 589 0

原创 python虚拟环境配置

为了使开发环境互不影响,我们应该使用虚拟环境帮助我们去进行开发。 第一步:安装virtualenv     直接pip install virtualenv即可 第二步:使用virtualenvwrapper管理工具来管理我们的虚拟环境      pip install virtuale...

2018-01-28 13:57:57 460 0

原创 爬虫常用的小工具(谷歌插件)

为了方便爬虫代码的快速编写,及业务功能实现,现分享三个我常用的谷歌插件。 1. xpath,全名XPath Helper 在QUERY里可直接写XPATH规则,获取想要的数据 2. JSON-handle 此工具可把通过ajax请求网页的返回数据直接转换成比较好看的jso...

2018-01-18 19:57:49 14294 0

原创 安装Twisted报错:Microsoft Visual C++ 14.0 is required

安装Twisted报错如下: 解决方法:   1.进入http://landinghub.visualstudio.com/visual-cpp-build-tools页面    2.点击下载即可   3.一路next安装就可以啦! ps: 百度云下载:https:/...

2018-01-16 11:38:20 1321 0

原创 快速解决No module named 'win32api'

启动scrapy的时候报这个错误,可使用pip install pypiwin32,是不是很方便呢

2018-01-16 10:48:39 2618 1

原创 json数据键值对两端没有引号怎么转字典

最近碰到一个网站,返回的数据巨恶心,如果用正则或者其它的方法一个一个找规则替换,非常麻烦。直接使用json.loads肯定是会报错的。   返回数据如下,具体多恶心,自己试一试就知道了! { serverSeconds : 1515659363, last_time : 1515659...

2018-01-13 20:08:42 2463 0

原创 针对文章内容进行去重

最近公司项目抓取新闻板块内容,但是多个网站之间,重复新闻的概率很高(因为大多数新闻网站的内容都是互相爬取的),所以我自己想了一个针对内容的去重方法。   大概思路是: 取文章当中最长的3句话(当然这个值可以自己随意指定),默认只接收列表,然后进行hash,把hash值存储在redis中,因为...

2018-01-13 19:23:15 1363 0

提示
确定要删除当前文章?
取消 删除