自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

半吊子python全栈

想深入钻研逆向,但缺少经费~,接各种爬虫,web,小程序,app wx: emg5NDAzNzY3ODc= bs64解密...

原创 大众点评 与 美团 与饿了么

好久没有写博客了~~ 自从换了工作就一直忙 一直忙~~ 现在腾出点时间,记录一下最近遇到的一些问题 最近主要写了 大众点评 美团 和饿了么的一些东西 ,这里不纠结具体细节,只说一下遇到的各种坑 1.大众点评: 在3个中 我觉得难度最低吧,最坑的一点是ip验证,一个ip只有通过了验证码 才能...

2019-05-20 18:18:24 710 6

原创 appium 多开

最近跑一个app 使用的是appium,单开太慢了~,就想多开,结果遇到一个问题,最后解决了,这里记录一下! self.desired_caps = { "platformName": PLATFROM, &q...

2019-03-26 13:48:55 856 1

转载 IT IS *NOT* POSSIBLE TO DETECT AND BLOCK CHROME HEADLESS

转载 地址https://intoli-dot-com.ext.jsproxy.tk/blog/not-possible-to-block-chrome-headless/ (直接使用浏览器只带的翻译了) 几个月前,我写了一篇名为Making Chrome Headless Untetecta...

2019-03-11 18:37:32 393 0

转载 一行代码解决 window.navigator.webdrive 的问题

from selenium.webdriver import Chrome from selenium.webdriver import ChromeOptions option = ChromeOptions() option.add_experimental_option('exc...

2019-03-11 16:52:34 3533 4

原创 携程机票查询

比较简单,直接放代码,代码仅供学习。 import requests, re, json, time, random city_listed = {"阿勒泰": "AAT", "兴义": "ACX", "...

2019-03-08 18:14:44 1272 2

原创 拼多多 anti_content 解密

当前时间:2019/3/4 14:44:57 最近有些时间里,时不时听到拼多多 市值多少啦,买东西怎么了啊,被赞羊毛了啊! 然后就想花了一天半来分析 拼多多的前端js 这里我使用的接口是http://mobile.yangkeduo.com手机网页端,其中主要的js代码就是截图中的sea...

2019-03-04 17:57:22 8819 28

转载 java 图片相似度算法

转载自:https://www.sunjs.com/article/detail/24dd9a9e436e489185430c4c45034d69.html 利用直方图原理实现图像内容相似度比较、均值哈希实现图像内容相似度比较、汉明距离算法实现图像内容相似度比较 直方图原理实现图像内容相似...

2019-02-28 14:49:44 533 0

转载 Java 操作 Excel

备份一份! 转载着:https://blog.csdn.net/jianggujin/article/details/80200400   之前写过一篇《JAVA操作Excel》,介绍了jxl和poi读写Excel的实现,今天为大家介绍一下使用easyexcel对Excel进行读写,项目主页...

2019-02-18 17:59:55 1200 0

转载 【Fiddler为所欲为第二篇】像OD一样调试

 转载自 https://www.52pojie.cn/thread-854434-1-1.html 导语: 其实Fiddler隐藏的功能太多太多,其调试功能也是异常强大,可以说是抓包界的“OllyDbg”并不为过。接下来,教大家如何使用Fiddler进行调试、解析,甚至封包“逆向”!   一...

2019-01-31 15:17:18 583 0

转载 Fiddler大解析!抱歉,抓包抓得好真的可以为所欲为(一)

转载自  https://www.52pojie.cn/thread-854434-1-1.html 狂暴补师亚丝娜 说起抓包,很多人以为就是用个工具,简简单单地抓一下就可以了。昨天在面试一个安卓逆向,直接告诉我【抓包没有技术含量】。在这里,我必须发一个教程,解析一下抓包神器——Fiddler。...

2019-01-31 15:12:49 3170 4

原创 中国商标网 -爬虫

        最近有时间,找了一些比较麻烦的网站来练手,然后想起来 以前说要弄商标网的,今天就又上去看了下!         以前转载的链接 :商标局网请收下我的膝盖         上去查看了下,感觉怎么参数这么明显了!!!???      应该是取消了很多爬虫限制!         然...

2019-01-24 18:39:22 6826 8

原创 行政区---高德坐标系的获取

        最近研究了 一下美团外卖,需要获取某些地区下的所有外卖信息, 解决了获取数据的难题,但是美团限制,一个地点只能获取200个商家,如果想要获取全城的外卖信息,就需要使用不同的坐标来遍历一遍,在去重~~         百度了一下 美团使用的是高德坐标系,网上找了一下,发现有这样一个...

2019-01-23 13:50:57 302 1

原创 记:当爬虫无路可走的时候

最近帮一朋友"了解" http://app1.sfda.gov.cn 食药局 这个网站下的一些数据, 首先 一上来就正按照之前的正常操作:         第一条路:分析js找到加密参数是如何生成的,然后发现debug 模式被ban了,调试半天不知道如何解除debug限制!...

2019-01-22 17:22:49 647 4

原创 python 操作 excel 文件

官方 地址 :http://www.python-excel.org/ 使用xlsxwriter (只能写 不能读取)来进行写成.xlsx文件 可以使用xlrd 写成 xls 文件 简单 demo 如下: import xlsxwriter, csv # 创建excel 对象 w...

2019-01-16 14:45:18 193 0

原创 JAVA 实现MD5加密

package crawl; import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class CreateMD5 { public static String get...

2019-01-09 16:39:23 344 0

转载 一张流程图简化安卓动态调试步奏

    1.不应该在AndroidManifest.xml中添加android:debuggable="true",app一旦加固了,会检测自己有没有被修改!一旦发现被修改,就打不开或报错! 推荐修改系统中ro.debuggable这个属性值,ro.debuggable...

2018-12-19 16:16:34 260 0

原创 appium + 真机 获取微信公众号 信息

2018.11.30 昨天简单获取了一下微信朋友圈,算是对appium 又回顾了一遍,今天爬一波微信公众号,改天研究一下微信app的加密 直接上代码: import time from lxml import etree from appium import webdriver from ...

2018-11-30 18:45:07 1683 2

原创 appium 之爬取微信朋友圈

2018.11.30 号 我的相关工具:appium desktop v1.9.1  虚拟机 夜神模拟器 v6.2.2.7  1.相关看了一下 网络开发爬虫实战 这本书里面appium 相关内容后写的 import time from appium import webdriver fro...

2018-11-30 10:45:16 2952 7

原创 xpath etree 异常

在windows 下,获得服务器端返回的json数据,然后在json数据中取出 html ,结果使用xpath 解析,结果异常 最后发现是windows 系统中 将/ 解析成\/ 产生的异常 只需要进行 html.replace("\\/","/")...

2018-11-26 15:59:09 474 0

原创 CSV 文件 写入引号 和 换行

问题:需要在csv文件中写入 双引号 和 换行 解决,在需要写双引号的地方在加一个双引号 进行转义,这一格的数据是必须用双引号括起来的, 参考文档:https://tools.ietf.org/html/rfc4180...

2018-11-09 18:48:50 4174 0

转载 转载:备份chromedriver版本

chromedriver安装 直接使用PIP安装 1 pip install selenium 用浏览器浏览器的浏览器来测试 1 from selenium import webdriver 2 3 browser = webdriver.Chrome() 4 browser.get...

2018-10-30 18:15:53 126 0

原创 1024程序员节 - 分享一个抖音视频下载程序

在网上调用别人的接口来实现的功能  import requests import execjs # 生成参数s def generateStr(a): js = ''' test = function(a) { ...

2018-10-24 15:16:29 727 0

转载 如何让你的Python爬虫采集得更快

如何让Python爬虫采集的更快,如何处理海量数据的下载是我们一直探索和研究的对象。下面是我们从数学角度给出的一些分析以及我们的一些经验分享。     假设线程数为n,线程中下载平均用时为td,线程中数据处理部分(纯计算)用时为tc。由于单个Python进程只能使用单CPU核心,因此总的数据处理...

2018-10-23 17:16:02 1143 0

转载 如何突破网站对selenium的屏蔽

使用selenium模拟浏览器进行数据抓取无疑是当下最通用的数据采集方案,它通吃各种数据加载方式,能够绕过客户JS加密,绕过爬虫检测,绕过签名机制。它的应用,使得许多网站的反采集策略形同虚设。由于selenium不会在HTTP请求数据中留下指纹,因此无法被网站直接识别和拦截。 这是不是就意味着s...

2018-10-23 15:13:25 15692 12

转载 android四大组件(详细总结)

android四大组件分别为activity、service、content provider、broadcast receiver。 一、android四大组件详解 1、activity (1)一个Activity通常就是一个单独的屏幕(窗口)。 (2)Activity之间通过Inten...

2018-10-11 18:46:08 93 0

转载 Android studio3.0打开Device File Explore(文件管理器)的方法(图文教程)

Android studio3.0打开Device File Explore(文件管理器)的方法 看到网上AS3.0新增加的查看手机文件的新功能,全部都是转载的,没有几个人心细的把如何打开的方法写下来,我找了好多地方才找到打开的方法,目前有如下两种种: 方法一: 点击 View &g...

2018-10-11 18:34:44 2301 0

转载 采集小红书 数据 爬虫

最新版(2018年9月) 小红书(https://www.xiaohongshu.com/),号称拥有超过一亿用户的生活方式分享社区,其用户笔记内容涵盖吃穿玩乐买,涉及时尚、护肤、彩妆、美食、旅行、影视、读书、健身等各个生活方式领域,再加上社区每天产生数十亿次的笔记曝光,正如客户所言,其平台是集...

2018-09-29 16:43:48 27625 28

原创 百度指数 爬虫 更新版

current time: 2019.3.21 正常 今天跑了一下数据,发现百度随机返回缺失的数据~~,这就有点坑了 对此 我们就只能更换获取数据的接口了,我们更改接口以后,就没有缺失数据的情况了!!! current time: 2018.11.617.23 正常 昨天晚上有人跟...

2018-09-28 17:51:06 6530 4

原创 抓手机app可能出现的问题及解决方式

概况:看了会大佬调试各种app,写各种插件,然后发现有一个很好的办法 1.当我们使用fiddler进行抓取https包的时候,有可能安装了证书也获取不到,这个时候,可能就是服务器端进行了验证,这个时候,大佬们直接使用--- 第一、使用Xposed拦截系统的证书校验功能,这个网上有大神给出了ho...

2018-09-10 18:36:27 555 1

原创 Scrapy 调用讯代理动态转发BUG 解决

问题:最近找一些代理来使用 , 用到了讯代理的动态转发,使用requests能正常使用,但是使用Scrapy框架调用的时候,怎么都调用不了。异常是没有特定的头部信息,但是请求是 解决:先使用抓包工具,查看程序发出去的请求的头信息,发现是没有我添加的头部信息,先是觉得可能自己加错误了,但尝试几次,...

2018-09-07 16:59:04 1951 8

转载 HTML,JS禁止鼠标右键、禁止全选、复制、粘贴的方法

禁止鼠标右键、禁止全选、复制、粘贴; oncontextmenu事件禁用右键菜单;  js代码: document.oncontextmenu = function(){ event.returnValue = false; } // 或者直接返回整个事件 document.onco...

2018-09-07 15:02:34 238 0

原创 汽车之家爬虫(autohome)

项目的请求url类型https://k.autohome.com.cn/detail/view_01cezq86y568r3ad1m6ws00000.html?st=4&piap=0|3170|0|0|1|0|0|0|0|0|1#pvareaid=2112108   以前有写过...

2018-08-23 18:13:57 3578 0

原创 pytesseract psm 选项参数

最近写*车之家的爬虫,遇到动态,扭曲的自定义字符,以前直接比对不变的字符部分已经不行了,想了半天,对字符的操作不是很了解,所以就想到用orc来直接识别好了 遇到问题,使用pytesseract进行操作的时候,添加了中文的语言的选项,但是不添加psm参数时,识别不出来。经过一番查找 找到 应该加...

2018-08-17 11:40:34 8653 0

转载 自定义字符反爬

  最近临时受命,要针对采集我司网站的爬虫进行反制。虽然不太熟悉这个领域,但既然分到咱这儿了,那就上呗,有啥说的,谁让咱是“全栈工程师”呢(牛逼吹的大了点)。 原本公司已经有了一套字体反爬的机制,但效果还是不很理想。花了一周的时间进行研究,最终在现有反爬基础之上,总结了本文要讲的方案。 说是...

2018-08-16 17:11:04 461 0

转载 基于Node.js实现一个小小的爬虫

1.本次爬虫目标: 从拉钩招聘网站中找出“前端开发”这一类岗位的信息,并作相应页面分析,提取出特定的几个部分如岗位名称、岗位薪资、岗位所属公司、岗位发布日期等。并将抓取到的这些信息,展现出来。   初始拉钩网站上界面信息如下:   2.设计方案: 爬虫,实际上就是通过相应的技术,抓...

2018-08-10 18:06:28 328 0

转载 mySQL 关于bool类型

  mysql是不支持bool类型的,所以,当把一个数据设置成bool类型的时候,数据库会自动转换成tinyint(1)的数据类型,其实这个就是变相的bool。 默认值也就是1,0两种,分别对应了bool的true和false...

2018-08-08 18:09:55 14114 0

原创 去表情字符串

try: microblog_device = re.findall(r'feed_from W_textb.*?nofollow">(.*?)<.*?div>', i, re.S)[-1] microblo...

2018-08-03 14:11:19 612 0

转载 清除MYSQL字段中的空格

同时清除前面,后面及中间的空格: UPDATE et.yuangong SET xingming=TRIM(REPLACE(xingming,' ','')); 清除数据库et中yuangong表xingming字段中的空格(前面后面中间的空格)。 (...

2018-08-02 11:34:25 2851 0

原创 mysql存储utf-8数据时有表情问题

从网络中取下的数据解析后不能插入数据库,提示某个字段有问题,问题提示如下: 1 SQLException: Incorrect string value: '\xF0\x9F\x98\x84' for column 'wei_conte...

2018-08-02 10:23:38 387 0

转载 XPath与lxml_4功能函数

实用功能函数,更好的进行模糊搜索。   1 starts-with函数 用法:xpath('//div[stars-with(@id,"test")]') 解释:选取id值以test为开头的div节点   2 contains函数 用法:xpa...

2018-07-30 18:05:55 223 0

提示
确定要删除当前文章?
取消 删除