自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小月牙

数据分析师的进阶之路

  • 博客(19)
  • 收藏
  • 关注

原创 对抗自动锁屏策略

工作中时常会有跑程序,而人不在的情况,但是碍于公司严格的锁屏策略,5分钟必锁屏,锁屏程序就中断,这可真的是有点头疼,但是机智的劳动人民是不会屈服的,我们可以借助VBS隔一段时间对操作系统发送指令,防止进入锁屏Dim objResultDim Length Dim i Set objShell = WScript.CreateObject("WScript.Shell") Length = InputBox("要用魔法打败魔法","输入时长(小时)")Length = Length*60*6.

2021-01-20 18:12:17 318

原创 破解某多多anti_content参数

2020-11-09更新某多多在搜索关键字后,鼠标下滑翻页,每一次翻页都会带一个anti_content参数,而这个参数是动态变化的这边选择直接进入第一个js打个断点然后下滑翻页,成功断住然后就是堆栈去寻找,大概如下的位置,会看到很可疑的东西getAntiContent(),这个东西看着就像在说,来呀给我上断点啊,ok如你所愿事情当然不会这么简单,他用了promise异步编程,没法直接看结果,那就单步进去看看一直单步一直单步,终于到了一个新的js里,名字是RiskControl开头,.

2020-11-10 13:23:06 4334 2

原创 爬取websocket(ws)数据2

本次带来的是策略中心的画像抓取,基本和数据银行差不多,首先进入策略中心后,点击消费者-消费者细分-选一个人群包透视,就能看到用户画像了。那么开始抓包吧。发起请求部分,变量参数是id(每个标签对应唯一id),那就很简单了,把id全部搞下来就行了,我选择手敲,毕竟后续还要对应标签名称,还有一个rid,通过str(int(time.time() * 1000)) + str(self.count).zfill(2)生成,count起初为0,每发起一次请求count=count+1headers.

2020-07-28 15:29:48 3872 3

原创 爬取DMP_ISV版(达摩盘服务商版)画像数据

本次来看一下达摩盘服务商版的画像数据抓取过程,先随便选取一个人群包进行画像透视,进入到画像页面后,开始抓包抓包找数据是个细致活,基本就是先找xhr中,找不到再去js中,最后去ws中,这边刚好就在xhr里,可以看到每一个标签都进行了请求才获得数据,那么来分析其中一个包的参数吧一眼就能看到是个ajax请求,param带着两个暂时不知道是什么的参数,r猜测是随机数,csrfId仔细看的话,之前的包每一个都带着它,那么只要继续往上找,就能找到是从哪里获取的了再来看看data部分,如果你.

2020-07-27 14:11:20 3705 6

原创 爬取websocket(ws)数据1

哈咯哈咯,这里是失踪人口回归了,这段时间有些懈怠了,要重新拾起学习的激情啊,那么马上带来的是有关数据银行、策略中心、达摩盘的画像数据抓取。先拿数据银行来说,在自定义分析-查看报告-人群透视中可以看到用户画像,抓包后可以发现是ws传输的数据,那么该怎么抓下来呢先看看ws这边headers的参数,Sec-WebSocket-Key通过base64.b64encode(os.urandom(16)).decode(‘utf-8’).strip()生成其他就没啥了主要来看提交的参数,bizPar.

2020-07-23 16:13:13 5676 22

原创 电商行业之熵值法求权重

在经过多轮的ABtest之后,产出了很多的数据,同时也有很多的指标,那么到底哪个指标的重要性更大一些呢,方法有很多,例如:主观经验法、专家调查法、层次分析法、熵值法,本次就使用R语言实现熵值法求权重第一步导入数据看看本次数据取自淘宝后台某家店铺,可以看到数据大多已经经过处理sourui<-read.csv("dkdk.csv",header = T)head(sourui)...

2019-12-06 16:12:02 2998

原创 selenium+pynput破解滑块验证码

目前很多网站都会采用滑块验证码作为反爬,由于selenium的特征值太多,很容易被识别出来,因此需要更加底层的技术–pynput模拟鼠标的点击、拖动行为pynput.mouse:包含控制和监控鼠标或者触摸板的类。pynput.keyboard:包含控制和监控键盘的类。核心代码实例化一个pynput.mouse的类mouse来控制鼠标mouse.press(Button.left...

2019-11-26 16:24:09 9142 6

原创 python建立ip池

建立ip池ip池对于大批量的数据爬取是很有必要的,一些网站采用ip访问频率的限制,一不小心ip就被封了,这时候可以 ①花钱买代理ip(稳定) ②爬取免费代理ip建立ip池(不稳定)两种方式都可以就看你手头银子够不够了免费的代理ip网址有很多,百度ip代理,会弹出一大堆的网址,可以随意选几个来获取基本上代理ip网址都没什么反爬,简单的xpath+正则都能搞定 ,但是要注意访问频...

2019-11-26 15:26:14 8312

原创 破解大众点评字体反爬

本次爬取大众点评商家信息,包括店铺名,星级,评论数,人均价格,各类评分,地址,电话,营业时间大众点评采用的是两种字体反爬,分别是字体库和svg偏移,前者就是本次需要破解的内容,打开大众点评任意一个店铺详情页,可以看到内容不完整或者乱码,但其实它和某个字体库存在一一对应的关系右键任意地方,打开网页源代码,搜索svgtext,可以看到一个.css的链接,点击进入会发现好多个.woff结...

2019-11-18 11:34:54 11265

原创 selenium爬取淘宝评论信息

爬遍电商之淘宝篇今天用selenium实现淘宝评论抓取,首先当然是解决登录问题了,不过目前是手动登录,日后有时间再细细研究研究,他这个登录确实有点牛皮采用cmd打开chrome的方式,然后用selenium接管即可,手动输入账号密码登录成功,再关闭提示框,爬虫立马开始工作def login_taobao(): # 打开本地chrome,同时打开直通车登录页面,需要提前配置环境变量p...

2019-11-04 16:09:21 16277 2

原创 python爬取京东商品列表信息

爬遍电商之京东篇:目标是爬取指定商品的商品列表信息,包括商品名,价格,评论数,店铺名打开京东页面,随便搜一个笔记本,F12打开NetWork开始抓包,翻个3页,遇到断点就按F8执行,然后看到第一个返回内容的ajax请求,是返回了第1页的后30个商品,下面开头名一样的依次返回第2页前30个,第2页后30个,第3页前30个,第三页后30个…别问是怎么知道的,对比一下就行了看看第一个a...

2019-10-30 10:39:09 25024 4

原创 爬虫之简单js逆向

本次js逆向没有存在代码混淆,所以还是比较简单的,重要的就是js逆向的思路,目标网站https://notice.qb.com/detail?noticeId=215让我们开始吧进入网站后按F12,查看DOC中的,可以看出该网页一部分内容是异步加载而成继续在XHR中寻找,发现了第一个common中就有我们需要的内容然后点到Headers看看它具体是有哪些请求参数,大概知道哪几个...

2019-10-14 13:18:33 24945 3

原创 selenium无登录状态爬取Boss直聘

BOSS是我很早就实现数据爬取的网站,那会直接用request即可,最近再次尝试以前的代码发现,它做了一些反爬处理,当你直接访问例如https://www.zhipin.com/c101210100/b_西湖区/?query=数据分析杭州这样的网址,会进行一个二次跳转,就算获取跳转后的网址再访问也是不行的,因为它的cookies里有一个_zp_stoken_,是js加密生成的,尽力一番之后宣告难...

2019-09-25 18:16:51 28695 14

原创 selenium破解B站极验验证码

selenium破解B站最新版极验验证码

2019-08-08 13:53:04 27296 1

原创 python实现钉钉群自动警报

实现钉钉群自动警报添加机器人发送警报消息设置定时启动添加机器人1、进入某一个钉钉群-点击群设置-智能群助手-添加机器人-自定义2、填写好机器人名字,以及安全设置,比如自定义关键词,设置好之后,消息中带有这个关键词,才会显示在钉钉群里,我就随手设置了个“提醒”关键词3、获取群地址,这个地址就是当你编辑好消息后,往这发送,随后消息就会显示在群里发送警报消息# -*- encoding=utf-8 -*-import jsonimport requestsclass dingding(o

2022-01-11 15:48:30 1170

原创 python调用js文件

python调用js文件生成参数JS逆向安装exejs与nodejs调用js生成参数JS逆向我就随便找了一个网站https://cloud.kingdee.com/passport/#/auth/login随手输入一个账号密码,抓包后发现请求带着加密的密码(相同密码每次请求字符串都不同)和加密的验证码(有时候不出现),判断是个动态加密,那就针对密码下手把1、进入第一步JS中打上断点2、回溯发现,前面三个栈的方法里没有出现加密的js语句,这里继续打断点在第四个异步请求的地方3、发现在cal

2022-01-11 15:09:06 1621

原创 量化商品,计算相似度

量化商品,计算相似度如何精准寻找竞品相似度算法数据源及具体实现如何精准寻找竞品一般情况下,竞品的识别方式,是通过价格、规格、成分、主要宣传点、销量等维度进行判断的,这种方式存在一定滞后性,并且过于主观,同时没有监控到该竞品完整的生命周期,何时起量,何时打爆,都不清楚。本次专题研究的是通过量化的方式来描述商品,计算彼此之间的相似度,单纯从相似度判断是否可能成为目标竞品。相似度算法首先了解一下可落地的相似度算法,参考文章https://blog.csdn.net/Gamer_gyt/article/d

2021-09-13 17:54:10 818

原创 微博网页版登录参数SP

最近要做一个get咖啡趋势、玩法的项目,目标网站有许多,先从微博开始,获取个话题榜看看那要想爬取数据当然要先实现登录,先来随便输入个账号密码抓包看看,可以在ALL里看到第一个包提交了一些信息,然后获取了一些不知道有啥用的数据(其实要用在后面的登录中),提交的信息中su是base64加密后的账号, _ 是时间戳su不知道的话可以全局搜索一下su =...

2020-01-14 14:24:17 3632

原创 跳过selenium检测爬取淘宝直通车

最近,有对阿里商家端进行一些数据爬取,这次爬取的是直通车人群溢价数据,发现对selenium的检测相当厉害,然而我的回答是,你强任你强,清风拂山岗。咱人工登录怕过谁,什么cokies,user-agent,selenium检测,token,统统与我无瓜,我们的宗旨就是,能用就行核心就是,打开真实浏览器,用selenium接管,登录之后,再关闭提示框,立刻开始爬虫os.system('cd...

2019-09-12 13:59:28 24759 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除