反欺诈技术揭秘-设备指纹VS关系网络模型 此博文包含图片 (2017-05-12 10:23:52)转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型 分类: 风控 文章来源:网络(经整合梳理

反欺诈技术揭秘-设备指纹VS关系网络模型

  (2017-05-12 10:23:52)
标签: 

设备指纹

 

关系网络

 

反欺诈

 

神经网络模型

分类: 风控
文章来源:网络(经整合梳理,仅供交流学习使用)        

     
     从互联网金融诞生之日起,骗贷者便如影随形。

坊间传说,2016年,至少有3家互联网金融领域的创业公司,被骗贷者“撸”垮。

小平台深受其害,大平台同样也躲不过。作为一家已经在美国上市的P2P公司,宜人贷在2016年三季报坦诚,由于旗下产品遭遇“有组织的欺诈事件”,公司损失了8130万元的风险准备金。

那么问题来了,作为一个骗贷者,他究竟是如何骗到钱的呢?


反欺诈技术揭秘-设备指纹VS关系网络模型

      线上招收学员

         由于互联网金融行业的无序发展,大多数平台的风控能力相对薄弱,骗贷者便利用“口子”(平台的风控漏洞),设法把钱骗到手。

        一般来说,要想成为骗贷者,必须先找到人教,弄清楚平台的漏洞究竟是什么。

        在这一过程中,互联网成了最为便利的工具。只要你每天在骗贷者聚集的论坛或贴吧发帖,就会引起中介的注意。

        发帖的内容颇有讲究,骗贷者一定要注明是兼职的需求,只有这样,中介才会在收取一笔费用后,将骗贷者介绍进入他们的体系。

       当然,中介也会核查骗贷者的身份,确保不是记者或金融机构的人。核查方法很简单,查看骗贷者的朋友圈——如果朋友圈里都是些吃吃喝喝的内容,更容易获得中介的信任。

       在取得中介信任后,骗贷者就有可能获得各互联网平台的规则漏洞,以及骗贷攻略,并据此开始骗贷。

       上述过程中,找到一个靠谱的中介至关重要,骗贷者被中介“黑吃黑”,损失数百元中介费的情况,极为常见。


线下购买身份

       如果说线上的骗贷者,更多是单打独斗的话,线下的骗贷者,组织更为严密。

       有的骗贷组织,会专门去偏远农村,去购买大批留守老人的身份信息——酬劳往往非常廉价,可能是一篮子鸡蛋,也可能是100元钱。

       拿到真实的身份信息后,这些组织要么立即去攻破一些风控极为简陋的平台,每个身份骗一笔小钱;要么花时间精力把信用记录养起来,然后再去骗贷,骗更多的钱。

       此前还有媒体报道过这样一种线下骗贷手法:骗贷组织先在某社区租一个商铺,简单装修后谎称是茶庄生意,然后再将某偏远村的村民都接过来,统一教村民各种应对互金风控人员的话术。

      准备工作完成后,骗贷组织让村民们分别去向数十家信贷机构申请贷款,一轮下来,一个人能获利数百万元。骗贷组织在付给村民一定酬劳后,将村民送回老家,自己也拿着钱人去楼空。

与平台“斗法”

             对于骗贷者的存在,各互联网金融平台也心知肚明,并开始与骗贷者“斗法”。

        各互联网金融平台的措施各不相同,为了防范骗贷者,大家也都不愿细说。

       一般来说,平台的反制措施,一是通过舆情监测机器人进行检测预警,二是人工核验身份,三是利用大数据进行识别。

       值得一提的是,虽然目前已经有第三方公司提供行业黑名单,但各平台却并不将其作为主要的防范手段,因为一般情况下,如果一个人的身份信息能被黑名单查到,往往意味着行骗的过程已经结束了。

            对于平台来说,最令他们感到头疼的是,对于骗贷者的惩罚实在是太过轻微。骗贷者在网络借贷中发生的逾期或骗贷行为,目前是无法纳入央行的个人征信系统的。

      正因如此,骗贷者才能有底气喊出这样一句话:“凭自己本事骗来的钱,为什么要还?”

            整治骗贷者究竟有何妙药?目前比较有效的方式有两种:一是设备指纹,二是关系网络模型。听起来都好高大上的样子。



            先来说说设备指纹,故名思议,就是给每台设备颁发一个类似人类指纹一样的唯一身份证。

            移动互联网时代,随着cookie的逐渐失效,新一代设备识别方法—设备指纹,近两年可以说是大红大紫。

  相对于cookie,设备指纹具备不受浏览器兼容性限制、用户无法修改、不会被浏览器清除、可跨应用追踪等诸多优点,可谓集美貌与智慧于一身,在网络营销、反欺诈等领域应用广泛,也难怪众多企业为它争得头破血流。

设备指纹也有门派之分,其中主动式发展最早、技术门槛相对较低,因而目前应用比被动式和混合式两种更为广泛。

  但即便如此,主动式设备指纹的应用也十分复杂,需要收集诸多信息才能保证设备识别的准确性,如MAC地址、设备IMEI号、广告跟踪ID、设备唯一序列号、地理位置等等。

  此外,还要突破浏览器兼容性、千变万化的设备型号、代理、软件篡改设备信息等重重难关。

传说中的主动式设备指纹技术究竟怎么用。

  Step 1:请准备好已联网的电脑一台

  Step 2:打开以下网站https://github.com/Valve/fingerprintjs2

  Step 3:加载fingerprintjs2

  (点击可查看大图)

  Step 4:接着在页面中加入以下代码就可以轻松获得设备指纹啦

  (点击可查看大图)

  Step 5:没有了

  No,小编是认真的。


           这种主动式设备指纹技术有其特有的优点和适用场景,但其缺陷也相当突出。
 
           首先,存在明显的用户隐私侵犯,并因此可能导致被Google和苹果Apple Store下架。
  举个例子,金融、支付行业中有很多业务场景对于用户隐私的保护要求很高,就无法使用主动式设备指纹做设备识别。         

            其次,主动式指纹不能实现App和mobile web间,不同浏览器间的设备识别。
主动式设备指纹对于需要跨网页/应用追踪用户行为的场景,比如追踪App安装究竟来自哪个广告渠道,就无能为力。

           另外,主动式设备指纹所取特征均暴露于客户端,欺诈者可轻易通过一些一键新机等工具篡改相应特征信息,从而使指纹无效。

  这些场景就需要相对技术门槛更高的被动式设备指纹技术来解决了。


           最新的被动式设备指纹技术,从数据包的OSI七层协议中,提取出这台设备的操作系统、协议栈和网络状态相关的特征,并结合机器学习算法以标识和跟踪具体的移动设备。相比于主动式设备指纹技术,被动式设备指纹技术在适用范围和灵活性上,有着不可比拟的优势:

1)更大的适用范围,由于被动式设备指纹技术完全工作在服务器侧,一些无法植入SDK或JS的场景也可使用;

2)跨Web/App,跨浏览器的识别;

3)完全不侵犯用户隐私,避免了被AppStore下架的风险。




          接下来,重点说说牛逼哄哄的关系网络反欺诈技术。内容有点烧脑,烧死脑细胞后果自负~~~~下面就来看看在大数据角度怎么利用关系网络,通过无监督学习算法,挖掘诈骗团伙的特征,从而识别诈骗团伙的反欺诈技术。

  从常见的两种反欺诈模型说起

  金融欺诈,一般是指采用虚构事实或者隐瞒事实真相的方法,骗取公私财物或者金融机构信用的犯罪形式。几乎所有涉及金钱和服务的商业模式都会受到欺诈的攻击。通信、保险、贷款和信用卡申请是一些最容易出现金融欺诈的领域。

  目前并没有一个通用的反欺诈框架可以识别并防范所有形式的欺诈。在每一个领域,金融欺诈都有不同的形式和特征,比如,一个应用于信用卡申请的反欺诈模型并不能直接应用于保险领域,亦无法直接应用于信贷领域。

  一种最常用的反欺诈模型,是通过建立一个规则引擎或者机器学习模型来描述欺诈行为的特征,从而将欺诈行为从正常操作中区别开来。在反欺诈规则引擎中,这些甄别欺诈行为的规则依赖于从大量历史案例中总结出来的“专家知识”。例如,如果一个人申请贷款所用的手机号与其常用的手机号不一致,则这笔申请的欺诈风险就被认定稍高一些。

  另一种则是反欺诈机器学习模型,它指的是采用数据挖掘方法,基于历史数据(即,已知的欺诈申请和正常申请的数据)而建立的分类模型。这类模型的训练往往需要大量数据。

  两者有何区别?上面提到的规则引擎可以看作是一种特殊的最简单的机器学习模型:决策树模型。决策树模型具有极好的可解释性,因而,即使数据量不足,也可以通过专家知识来补全规则集。而广义上的反欺诈机器学习模型往往指的是采用更复杂的算法建立的模型(如随即森林、深度学习等)。这些模型的训练需要大量的历史数据并且其结果通常很难解读。

  不论是规则引擎还是机器学习模型,都是从历史案例中发现金融欺诈时重复出现的个体行为模式。这个方法在很多领域被证明为有效(例如,用于审核个人还款能力意愿的信用评分模型),然而在解决金融欺诈问题时表现一般, 原因有两个

  其一,金融欺诈的模式随时间不断演化和发展,而不仅仅是重复出现在历史案例中的个体行为模式;

  其二,随着反欺诈技术的进步,金融欺诈越来越难以由个体完成,而是需要通过团伙有组织的进行。

  关系网络提供了全新的反欺诈分析角度

  基于上述金融欺诈发生的两个特点,采用关系网络进行反欺诈检测变得越来越重要。关系网据指的是一种基于图的数据结构,由节点和边组成,如下图1所示。每个节点代表一个个体,每条边为个体与个体之间的关系。关系网络把不同的个体按照其关系连接在一起,从而提供了从“关系”的角度分析问题的能力。这更有利于从正常行为中识别出到异常的团伙欺诈行为。

  反欺诈技术揭秘-设备指纹VS关系网络模型

  图1

  关系网络的结构取决于如何定义个体与个体之间的关系。如果人与人存在“关系”指的是彼此认识,那么最终的网络结构将是一个无标度网络,其典型特征是在网络中的大部分节点只和很少节点连接,而有极少的节点与非常多的节点连接。如果将“关系”定义为亲属关系,则最终的网络结构将是一个个非连通的子图,每个子图代表一个家族。

  在解决实际问题的时候,关系的定义需要依据业务需求并且常常极为复杂。例如,某市公安局为了摸清犯罪嫌疑人的团伙,定义了24种人与人之间的关系。在反欺诈领域,如何定义“关系”更是需要保密,这是为了避免欺诈团伙采取针对性地防范策略,本文对这部分内容就不做过多的说明了。

  图2展示了由从某一线城市抽样的20,000余条贷款申请数据所构成的关系网络。因为所定义的“关系”均为强关系,所以图的结构不是一个连通的无标度网络,而是由一个个孤立的“团”组成的网络。其中,大部分的“团”由两个个体组成,他们之间通过某种关系相连。个别的“团”是由几十甚至上百个体组成的具有复杂结构的网络。


  反欺诈技术揭秘-设备指纹VS关系网络模型

  图2

  网络分析在反欺诈中的独道运用

  接下来,我们来讨论关系网络在反欺诈中的应用场景,主要分为监督模型和无监督模型两种情况。所谓的监督模型,指的是在已知“好”和“坏”标签的前提下,尝试从历史数据中,挖掘出欺诈团伙的典型特征和行为模式,从而能够有效的识别出金融欺诈团伙。监督模型虽然在预测准确性上有不错的表现,但是,实际情况中,“好”和“坏”的标签往往很难得到。因此,在没有标签信息时,无监督模型分析也变得尤为重要。当然,本文提到的分析方法只是关系网络在反欺诈场景中的冰山一角,更多的算法模型需要结合实际业务需求进行设计和开发。

  典型运用一:异常检测

  异常检测是在无监督模型学习中比较有代表性的方法,即在数据中找出具有异常性质的点或团体。在检测欺诈团体的情况下,异常检测被认为是比较有效果的。以贷款申请为例,许多团伙会选择共享一些申请信息,如提供同一个皮包公司的地址作为公司信息,或者联系人电话重合程度高。因此,在关系网络中,大多数的正常的个体应该是独立的节点,或者与另一个节点组成规模为二的团体(在这种情况下,多数可能为家人或亲友关系)。若出现三个点以上甚至十几个点关系密切时,则这些团体可被归为异常。上文中的20,000笔贷款申请组成的关系网络中含有300多个团体,团体规模分布由下图所示,其中大部分团体的规模较小,当团体规模超过某一阈值时,其可被认为异常。

  反欺诈技术揭秘-设备指纹VS关系网络模型

  图3

  我们对团体规模大小和欺诈度的相关性进行了分析。其中,欺诈度的定义为:欺诈度=团体中欺诈申请者的数目/团体中申请者总数。我们通过行业内的网贷黑名单数据来判定某一个体是否为欺诈申请者。相关性结果如下图所示,其中,横坐标表示团体规模大小,纵坐标表示欺诈度。可以看出,当团伙只有两个人时,欺诈度的中位数是0,而当规模变大时,欺诈度陡然增加。当团体规模大小为三人时,欺诈度最高,达到30%,其次为规模超过六人的团体。

  反欺诈技术揭秘-设备指纹VS关系网络模型

  图4

  异常检测并不能够明确的给出一个团体是否欺诈,但是可以通过这种方法排查出可疑的团伙,从而进行调查。该算法并不是基于历史数据挖掘隐藏的欺诈模式,因而常常能够有效地识别出新出现的未曾记录的欺诈行为。

  典型运用二:团体分群

  分群是一种常常被用于客户精准营销的无监督聚类算法,根据客户各个维度的信息,将其归并于某一特定群组,并对不同群组的客户采取差异化的营销策略。除了用于精准营销,分群算法还可以用于离群行为的检测,即,检测哪些客户的行为与同一群体的其他客户不同。这些离群行为或是预示着这些客户处于某些特殊事件情境中,或是预示着欺诈行为。这一部分主要和前文提到的异常检测相关,这里不再赘述。

  与客户分群不同,团体分群不仅依赖于团体中每个个体的特征,还依赖于整个团体作为一个整体的特征。这一方面使得团体分群拥有足够丰富的数据维度,另一方面也增加了问题的复杂性。一般来说,团体的特征可以分为 (1)和网络结构相关的团伙拓扑特征以及(2)和个体信息相关的团伙实体特征这两个大的维度。其中,团体的拓扑特征包括团的节点的数量、平均自由度、团体中节点间最长的最短路径等;团的实体特征包括团中男女比例、最大年龄差,平均年龄、团体总资产、团体总负债等。

  团体分群即是对给定网络中的团体依据以上特征进行区分,从而挖掘有潜在欺诈风险的团体的方法。举一个简单的例子,以团体中的男性占比和年龄差者两个特征来对网络中的团体进行分群。作为以家人关系而形成的团体,一般由三人形成,多为两男一女或两女一男,男性占比33%或67%,并且年龄差一般为20-30岁。具有这种性质的团体一般为家庭团体,因而风险性较小。但对于人数较多,男性占比高,而且年龄差较小的团体,则有可能是欺诈团伙,需要进一步调查。

  实际问题中,描述一个团伙的数据维度非常丰富,有时可多达数十个,这就对分群造成了困难(在高维空间中,寻找点的集群并不是一件容易的事,俗称“维度灾难”)。一个常用的解决方法是先对高维数据进行降维,然后再在低维空间中进行聚类。图5是对一组数据中由贷款申请构成的300多个团体进行分群的结果。在这个分析中,我们用男女比例、最大年龄差、有车个体占比、有房个体占比、有贷款个体占比和买理财产品个体占比这六个维度对团伙进行描述。我们采用t-SNE(t-Distributed Stochastic Neighbor Embedding)算法对高维数据进行降维和DBSCAN聚类算法对低维数据进行分群。由图5可见,在低维空间中,确实存在明显分隔的集群,这说明团体分群在实际操作中的可行性。

  反欺诈技术揭秘-设备指纹VS关系网络模型

  图5

  (每一个点代表一个团体,上述数据可以分为八个集群)

  我们对图5中每一个集群进行分析。集群1中的团体男女比例1:1,年龄相差0-5岁,集群中无人有贷款或买理财产品。这个集群很可能描述了由年轻情侣构成的团体。对于集群2中的团伙,男女比例2:1,年龄相差15-30岁,每个团伙中平均有一人有车和房,并且背有贷款,这个集群很可能描述了由父母子女构成的“团伙”。按照同样的方法可以对图5每一个集群进行分析,这里不一一赘述。尽管我们没有“好”、“坏”标签,无法得知哪个集群含有大量欺诈团伙,但是我们可以依据经验和专家知识筛选出可疑的集群,为进一步调查做好准备。例如集群6中全部由男性“团伙”构成,年龄相差0-10岁,团伙中大量个体都背有贷款。这个集群的欺诈嫌疑就比其他集群要高一些,下一步就可以继续对其进行进一步的调查。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值