自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 风控实战中的高阶关系构建-文本相似网络

看起来大差不差的,用户只是做少量的调整,面对这种情况,我但是第一反应就是做文本相似构图,但是发现用户量太多,随便就是上亿的。正常情况是可以的,但是现在黑灰产变化太快,快到甚至都来不及分析黑样本,这一波就结束了,又开始下一波了。也可以采用弱监督,比如输入一个关键词,然后找到对应的商品集合,再找到商家集合,就能拔出萝卜带出泥。经过大量的实战,这个方法还是非常有效的。虽然大规模文本处理的方法很多,我还是喜欢这种高效粗暴的办法,大家可以参考下。基于介质的关系构建,文章挺多的,但是基于内容的关系构建,相对比较少的。

2023-12-21 23:20:53 423

原创 情侣、基友、渣男和狗-基于SynchroTrap+极大联通子图的风险账户挖掘

​这是我在同济大学的第二次课程的课件内容,对之前的内容做了很多优化,并把算法换成了极大联通子图,发出来大家参考下。

2023-12-21 23:09:04 1171

原创 会这个4个方法,风控中的地址再也不愁了

大家好,我是小伍哥,发现用文档的形式,大家还是不方便阅读,还容易被别人盗版,所以这里重新发下。风控中,经常会遇到各种各样的地址,并且地址是个非常重要的特征,今天我们就聊聊风控里面的地址怎么挖掘,这里做了个大汇总。用户通信地址、消费者收货地址、消费者家庭地址、用户上班地址、商家营业执照地址、商家发货地址、商家售后地址、IP解析地址、身份证解析地址、手机号归属地、户口本/身份证上的地址、定位地址等等。有这么多的地址,我们怎么去提取特征或者直接使用地址特征呢?方法也是非常多的,我这里写4种,供大家参考。

2023-12-20 13:45:59 1135

原创 基于决策树的【非连续特征】风控策略自动化挖掘

风控策略风控算法

2023-12-20 13:43:24 492

原创 KNN算法简单?我竟用3万字没写清楚······

大家好,我是小伍哥,本文非常长,建议先收藏,有空再看谈起KNN,很多人都会觉得非常简单,甚至会露出不屑+鄙视,包括我自己,当初也是如此,当我进行深入的研究,发现真是大意了。大家都知道KNN可以用于分类,但是它能不能用于回归?KNN的5个有监督方法你是否都知道?K值怎么确定呢?距离可以加权么?为了取Top K,必须要对距离全部排序吗?基于质心的KNN你了解么?有没有方法减少KNN的计算复杂度?KNN还可以做图发现?KNN还可以限定邻居半径的有监督?KNN怎么进行异常检测?KNN是否能够找到我想要的邻居

2022-04-19 08:11:22 1166

原创 无形的眼睛-本福特定律,你的支付宝账单里隐藏着一个惊天大秘密​

世界运行的那么随机,结果又是那么有规律,视乎总有一双无形的眼睛盯着这个世界,一双无形的手在操纵这个世界,本福特定律就是其中一个,它可以发现你的消费明细里面隐藏着的惊天大秘密。什么是本福特定律?本福特定律(Benford's law),一堆从实际生活得出的数据,以1为首位数字的数出现的概率约为总数的30%,按直觉应该是1/9,实际与直觉相差比较大,它可用于检查各种数据是否有造假,1-9的概率分布如下。其实这定律,其实很简单,是个不起眼的定律,因为之前我也是大概的了解,但是反复的想了下,觉得是个

2022-04-14 09:43:51 762

原创 孤立森林-一个通过XJB乱分进行异常检测的算法

孤立森林(isolation Forest)算法,2008年由刘飞、周志华等提出,算法不借助类似距离、密度等指标去描述样本与其他样本的差异,而是直接去刻画所谓的疏离程度(isolation),因此该算法简单、高效,在工业界应用较多。Isolation Forest算法的逻辑很直观,算法采用二叉树对数据进行分裂,样本选取、特征选取、分裂点选取都采用随机化的方式(我称之为瞎几把乱分,诶,但是人家效果出奇的好,你说气人不)。如果某个样本是异常值,可能需要很少次数就可以切分出来,看看下面这个不大恰当的例子。

2022-03-21 20:38:16 6441 5

原创 基于稀有行为+同步行为的反欺诈检测算法 - CatchSync

大家好,我是小伍哥,今天我们继续探讨一个新的方法,基于同步性-稀有性进行图网络的异常检测,用来发现大型网络中存在的异常连接。英语论文:http://perozzi.net/publications/16_thesis.pdf英语论文:后台回复【论文】获取GitHub地址:https://github.com/mjiang89/CatchSync在社交媒体上,用户相互关注的行为会形成大规模的有向图,给定一个包含数百万个节点的有向图,我们如何仅根据其连接模式来自动发现异常、可疑的节点?...

2022-03-17 09:37:41 690

原创 关联规则-策略挖掘中必不可少的算法

一、关联规则概述1993年,Agrawal等人在首先提出关联规则概念,迄今已经差不多30年了,在各种算法层出不穷的今天,这算得上是老古董了,比很多人的年纪还大,往往是数据挖掘的入门算法,但深入研究的不多,尤其在风控领域,有着极其重要的应用潜力,是一个被低估的算法,很少见到公开的文章提及,我尝试一一剖析,希望给你带来一定的启示。我自己进行了深刻、全面的思考,并进行了大量的实验,这个话题感觉可以聊三天三夜。世界风云变幻,但本质没变化,各种关联一直存在,有意或无意的!比如你女朋友,低头玩手指+沉默,那

2022-03-07 09:59:45 1221

原创 风控团伙挖掘中的14种关系总结

大家好,我是小伍哥。风控业务中,团伙挖掘是非常核心的分析方法,甚至可以说是最重要的的分析方法。而团伙挖掘的基础就是关系数据,但是关系数据非常丰富多样,有些同学可能会疏漏或者不知道某些重要的关系导致挖掘深度不够。我对自己遇到过的一些关系进行了全面的梳理(大家遇到过其他的也可以在区补充),希望能给你带来一定的启示作用。商家规避网络,需要付出巨大的成本,比如规避设备指纹关联,需要更换设备或者购买最新的模拟器技术,为了规避支付网络,需要购买新的支付宝账号。但是黑产从业人员反侦察能力不断提...

2022-03-03 23:01:44 1008

原创 基于密集行为的欺诈检测算法-LockInfer

大家好,我是小伍哥,今天给大家分享的是一个基于密度的欺诈检测算法,思想非常牛逼,大家可以试试,先给出论文地址和代码:论文地址:http://pengcui.thumedialab.com/papers/lockinfer-kais15.pdf代码地址:https://github.com/mjiang89/LockInfer注意:上面论文是英文的,如果英文不是很好的,我找到了中文版本的,没有网址,需后台回复【论文】获取一、LockInfer算法概述互联网上泛滥着形形色色的欺诈行为,特..

2022-03-03 08:37:55 470 1

原创 基于同步行为的反欺诈算法SynchroTrap实现细节

上次分享了非常牛逼的不需要介质就能进行团伙挖掘的算法,大家都说是个好算法,但是实现细节还是有些问题。文章传送门:SynchroTrap-基于松散行为相似度的欺诈账户检测算法由此可见,风控的实践大于算法,就像绘画,给我同样的材料,打死我都成不了梵高。所以风控一定要多看多试验。我这里用一个简单的数据集,具体的把实现过程分享出来,并图解每一步的原理,希望对大家有帮助。【有问题加我咨询,尽量解答】一、梳理已有或者想应用的场景首先需要梳理满足该算法数据条件的场景,最少的条件就是:用户+时间戳。...

2022-03-01 19:17:18 1258 2

原创 风控策略的自动化生成-利用决策树分分钟生成上千条策略

本文重点:风控策略挖掘、策略推荐,策略发现,风控策略自动化,决策树周末陪我家妹子过了个生日,搞了几道菜,长了几斤肉,又要开始干活了。顺便推荐下,哈根达斯的冰淇淋蛋糕,很好吃。下面开始正文:风控策略同学在挖掘有效的风控规则的时候,经常需要基于业务经验,将那几个特征进行组合形成风控策略,会导致在特征组合的时候浪费大量的时间,我们有没有什么方法,替代人工的分析,直接得出策略组合呢,决策树就是其中的一个选择,可以实现自动化的挖掘大批量的策略组合。在众多的算法中,决策树整体分类准确率不高,但是..

2022-02-21 11:37:05 2194 12

原创 SynchroTrap-基于松散行为相似度的欺诈账户检测算法

大家好,我是小伍哥,今天给大家分享一个非常牛逼的算法,叫做SynchroTrap。有问题可以加我一起交流。一、极致对抗下的风控怎么做?为了好理解,以淘宝刷单为例(各阶段为假设,本人并未做过刷单的风控)第一阶段:同设备,同地址,大量购买第二阶段:同设备、地址部分变化,大量购买第三阶段:设备变化,IP、支付等介质有聚集,大量购买第四阶段:设备采用模拟器,变化IP,不同收货地址,空包等虚假物流,大量购买··· ···第N阶段:设备真实、IP真实、地址真实、物流真实、用户真实...

2022-02-15 00:03:32 2191 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除