数据挖掘#金融风控总结

作为本科某财经211出身的一只程序媛,大学期间的两份实习都是在金融科技公司做金融风控方向的数据分析与挖掘。一年多后的今天,借着知识梳理的机会,稍微总结回忆下接触到的金融风控知识。

第一份实习A是在大三结束出国交换之前,在某全国唯一持有金融牌照的中小银行金融科技服务公司的大数据风控部门做实习生,公司主要为中小银行提供集核心业务系统、互联网金融系统、外联业务平台、大数据服务及运营、风控支持等全方位的信息科技解决方案以及培训、咨询、合作创新等多元服务。

第二份实习B是大四结束交换毕业前,在成都某金融科技公司的反欺诈部门做实习生。公司主要为银行等金融机构解决在零售转型中遇到的的“客户如何获取”、“风险如何管理”、“运营如何保证”、“系统如何支撑”等问题,覆盖贷前、贷中、贷后全生命周期管理。

传统金融借贷业务贷前流程:

用户前来申请借贷,会先经过欺诈识别,把欺诈团伙和主观欺诈的个人拒绝掉,然后对通过的人做信用评估,最后根据额度模型,算出利润最大化时放款金额。

很巧的是,通过B、A两个公司的实习,正好涵盖了贷前流程中的欺诈识别与信用评估。

B欺诈识别

知识图谱方向

关联图谱分析的方法有很多,主要分为两大类:

一类是对网络特征的直接提取,提取出中心度或一度二度关联特征可供上层规则系统或风险评估模型使用。

反欺诈对于实时决策的需求很高,这些指标都需要实时提取。其中一些指标,比如二度关联度(second order degree), 在一般的情况下计算复杂度是很高的。在动态图的情形下,一般会采取一些近似的算法并进行预计算。这里解释一下二度关联。比如在网贷申请中,第一度是联系人,则与目标申请共享相同联系人的申请数目是一度关联数,如果这些申请还和另外一些申请共享相同的住址,这些申请就和目标申请形成了二度关联。

一些简单的指标,比如一度关联节点或二度关联节点是否触黑,在实际的反欺诈实践中效果是非常显著的。

第二类是对网络信息的深度挖掘。深度挖掘通常始于对连通子图的计算,对于社交属性较弱的金融应用,较大的连通子图可能对欺诈网络有揭示作用。在此基础上,还可以进行进一步展开社区的发现(Community Detection)。这里面社区的发现不等同于连通子图,汇聚性是一个更严格的指标。除此之外,通过欺诈比例传播,或者说染色,将已知的欺诈标注扩散开来,从而获得更多的欺诈标注,也是关联图谱的一个重要应用。

标签传播算法

· 标签传播算法

标签传播算法是一种基于图的半监督学习方法,其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。

利用样本间的关系建立关系完全图模型,在完全图中,节点包括已标注和未标注数据,其边表示两个节点的相似度,节点的标签按相似度传递给其他节点。标签数据就像是一个源头,可以对无标签数据进行标注,节点的相似度越大,标签越容易传播。该算法简单易实现,算法执行时间短,复杂度低且分类效果好,且具有良好的可解释性。

· 标签传播算法在反欺诈中的应用

通过对调查认定的欺诈客户进行标记,利用标签传播算法,用已标记的“坏”节点信息去预测未标记节点的欺诈风险程度,用边来表示两个节点的相似度,节点的风险程度按照相似度传递给其他节点,风险程度通过图的颜色进行可视化展示。

比如,有三个人 : 小明、小红、小王,他们是好朋友,现在已知小明是个欠钱不还的人,小红也是个欠钱不还的人,那么做为他们的朋友小王,欠钱不还的机率相对一般人,大一些。这和俗话中说的“近朱者赤近墨者黑”是相同的道理。

PageRank算法

· PageRank算法

PageRank,简称PR,是由Google研发的主要应用于评估网站可靠度和重要性、对网页进行排名的一种算法,是对网页排名进行考量的指标之一。

PageRank算法主要是基于两个假设:一是入链数量假设(一个网页的入链数量越多,那么它的重要程度就越高);二是入链质量假设(高质量的网页将为它的链接页面带去更多权重)。基于这两个假设,PageRank算法为每个页面设置一个初始权重值,根据网页间的链接关系,经过多次迭代后,各个页面的权重值达到稳定。通常认为权重值高的节点是比较可靠的网页。

· PageRank算法在反欺诈中的应用

PageRank算法是用PageRank值来标识复杂关系网络中节点重要性的一种方法。在初始阶段,将关系网络中所有节点设置相同的PageRank值,依网络节点相对应的概率转移矩阵不断更新节点的PageRank值,直到节点的PageRank值趋于稳定,得到每个节点的最终PageRank值。基于反欺诈数据背景,依据机器学习建模经验将复杂关系网络中每个节点的最终PageRank值进行高、中、低段分类,寻找高分段的可疑欺诈人群。

这个就是权重越大,风险越大,权重是什么?即认识的人有多少,与他人的联系有多少,重不重要。通俗点讲就是活跃的人群中的坏人比不活跃的人群中的坏人多,可能好人一般是比较低调的吧。

社团发现算法

· 社团发现算法

社团发现算法可以借助网络的各种统计指标来挖掘网络中内部关系紧密的社团。社团发现主要基于GN、SLPA、Newman等社团发现算法对复杂关系网络中的可疑欺诈团伙进行聚类挖掘。

· 社团发现算法在反欺诈中的应用

以GN算法为例,计算初始复杂关系网络中的边介数(所有节点之间的最短路径中经过该边的最短路径数)及Q值(模块度:常用的一种衡量网络社区划分质量的方法),去除边介数最高的边,重新计算当前网络的Q值,若Q值比原来的大,则将现在的Q值和网络分割情况进行更新,否则&#x

  • 8
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值