自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 web自定义字体转图片

之前看到爬虫攻防之前端策略简析中提到猫眼电影的今日票房栏为自定义字体,但是博客中提到使用fonttools进行加载然后人工先把几个数字的座标点进行标记,然后每次刷新时,拿到新的woff字体时,通过fonttool将字体转换成xml格式,根据座标点信息,判断其uncode值分别是多少。然后再将代码中的“方框”转换成真实数字。 感觉这样比较麻烦,于是想通过转为图片然后进行识别得到数字,代码如下 ...

2018-07-30 18:40:53 958 1

原创 scrapy数据收集器数据远程获取

scrapy的数据收集器可以实时记录爬虫状态数据,默认在爬虫结束是打印: C:\Anaconda2\Lib\site-packages\scrapy\statscollectors.py class StatsCollector(object): def __init__(self, crawler): self._dump = crawler.settings.ge...

2018-07-24 15:09:18 1850

原创 scrapy主动触发关闭爬虫

项目需求:采集昨日产生的数据,比如新闻,需要避免数据重复,因为新闻都是按照发布时间逆序排列的,所以只需根据新闻发布时间进行过滤,当发现采集到比昨天更早的数据时关闭爬虫。 可以在直接spider、pipeline和downloaderMiddlewares中关闭爬虫 在spider中时在方法里直接写 self.crawler.engine.close_spider(self, 'respon...

2018-07-23 11:41:39 11479 3

原创 Airflow1.8 分布式工作流平台搭建

版本信息: python 2.7.15 airflow==1.8.0 SQLAlchemy==1.1.18 flower==0.9.2 其中SQLAlchemy的版本如果是1.2.x版本会在创建用户是报错, [root@localhost ~]# python2 create_user.py [2018-07-18 18:51:09,336] {__init__.py:57} INFO...

2018-07-19 19:35:40 2950

原创 简单验证码识别

使用模块: pytesseract 依赖: tesseract-ocr和语言包 在不经过额外训练的情况下可以使用pytesseract可以识别简单的验证码,比如常见的数字、字母验证码。 类型一: 此类验证码只需使用Image.convert进行简单灰度化然后就识别了,convert图片格式转化 举例: im = Image.open('image.png') im...

2018-07-18 15:32:51 942

原创 多次加密

照常使用fiddle抓登录请求,发现传的参数被加密: 于是使用提交的参数在fiddler中全局搜索,经过反复查找,看见加密提示:  直接有提示说这是密码加密部分,于是全局搜索setPwdValue,找到加密部分: 经过分析发现加密部分只使用了下面部分: encodeMd5Pwd: function(e) { var t = hex_md5, n = "";...

2018-07-16 18:56:59 431

原创 自定义base64编码加密

这次是自定义base64加密,一看是看到base64时我还用python自带的base64进行假面,发现加密结果不一样,最后就按照js一步步用python实现了首先登录,发现密码被加密了:于是查看是那段代码发起的这个请求:于是找到了加密部分:以下为base64全部代码:/** * * Base64 encode / decode * 自定义base64编码 */ function B...

2018-07-16 16:51:52 3259

原创 RAS加密 - 二

这次遇到的登陆加密着实费了些功夫,我都想着用phantomjs来解决登陆然后拿到cookies了,这次使用了fiddler抓包了首先登陆时发现密码加密了,还多了些参数:在fiddler全局搜索guid,发现是上一个请求里的:接着找密码加密的部分:一般来说加密部分都在自己写的js里,所以就不看jquery开头的部分,点击VM919.formatted:74:找到了加密的部分,我这是使用了断掉调试,可...

2018-07-16 16:13:28 5389

原创 RAS加密

查看账号提交请求,发现密码不是明文:同样只在浏览器上查看请求,登录前获取提交用户账号的请求,查看是有那行代码发起的:找到密码加密过程,发现使用了res加密:可以直接在console上获取标准格式的公钥:也可以直接用:from cryptography.hazmat.primitives.asymmetric import rsa import base64 from Crypto.Cipher i...

2018-07-16 13:22:53 1293

原创 md5加密

这次不在使用fiddler抓包,直接使用浏览器的F12调试工具,这样可以使用Network面板里的Initiator查看到登陆请求是由那个对象或请求发出的,从而更快定位到加密的js代码。登陆前按F12打开调试窗口,勾选 Preserve log,这样可以保留登陆跳转前的请求记录,然后找到提交账号信息的请求,鼠标移到该请求的Initiator列就可以看到触发该请求方法所在的行:一般情况下,加密的步骤...

2018-07-16 11:56:44 208

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除