![](https://img-blog.csdnimg.cn/20190927151132530.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
金融风控实战
文章平均质量分 82
金融风控
Grateful_Dead424
这个作者很懒,什么都没留下…
展开
-
金融风控实战——金融风控与反欺诈业务详解
金融风控介绍最开始的信贷风控是怎么做的?人审吃业务经验不能大批量处理,效率低下不适用于移动互联网时代的金融场景建模的概念建模就是构造一个数学公式,能将我们手上有的数据输入进去,通过计算得到一些预测出来的结果。 比如大家初中/高中学习的线性回归,就是最简单的建模过程。风控模型最原始的思路就是输入一个用户的信息,得到这个人是 “会还钱” 还是 “不会还钱”。这就是个二分类问题。而评分卡模型其实就是希望能将一系列的个人信息输入模型,然后得到一个用户的还款概率。概率越大,评分越高,越容易还钱原创 2022-01-27 00:33:49 · 1565 阅读 · 0 评论 -
金融风控实战——生肖属性单变量分析
导入相关的包import pandas as pdimport numpy as np读取数据集ft_zodiac = pd.read_csv('ft_zodiac.txt')zodiac_label = pd.read_csv('zodiac_label.txt')查看数据集信息ft_zodiac.head()len(set(ft_zodiac.zodiac)) #查看12个属性是否都有#12len(set(ft_zodiac.chinese_zodiac)) #查看12个生原创 2022-01-27 16:47:05 · 1012 阅读 · 0 评论 -
金融风控实战——反欺诈特征
欺诈风险是借款人恶意利用金融规则的漏洞以非法占有为目的,采用虚构事实或者隐瞒事实真相的方法,骗取借款的风险。反欺诈解决方案经历了从简单的黑名单规则,到反欺诈规则引擎, 再到有监督的机器学习, 再到无监督的大数据欺诈检测,而其数据特征 提取依然是反欺诈能力的基础。总结一些常用的反欺诈数据特征类型,使用该类的欺诈特征数据, 可以进一步搭建反欺诈模型:或得到欺诈评分, 或得到欺诈规则。1.用户身份信息交叉验证规则验证类型输出结果银行卡四要素手机号码、银行卡、姓名、身份证号一致/不一致银行卡三要原创 2022-01-28 01:42:54 · 4341 阅读 · 0 评论 -
金融风控实战——信贷业务架构与业务分析
业务流程相关简介需要注意第一方欺诈和逾期用户的区别,第一方欺诈这些申请人申请目的是不良的,他们申请之前就没有想过要偿还他们借贷的金额。而对于逾期用户而言,他们原始目的可能是只是想要借助这笔资金去满足自己的一些需求,他们原本的目的不是恶意逾期,可能确实因为资金周转不良、遗忘等原因出现逾期的问题比如说我们某个信贷机构要去做申请评分卡,最基本的要对申请机构的用户数量要做一个统计他们是否已经构建了一个比较好、比较完善的平台可以持续不断稳定地抓取客户的各类数据。没有有效的数据以及数据的积累很难去原创 2022-01-28 02:23:11 · 1145 阅读 · 0 评论 -
金融风控实战——风控领域涉及到的算法和风控算法工程师需要具备的能力
一些简单的介绍市面上算法相关的岗位,从大范围上分为两大类1、研究驱动的算法工程师,这类算法工程师的门槛很高,分布在大型公司的研究院、创新实验室等部门,这类算法工程师主要是以研究新的算法或者是更好的优化方案或是算法的高性能实施等等为主,简单来说类似于高校的博士生,做研究,发paper;2、业务驱动的算法工程师,这类算法工程师的占比相对来说高得多,目前我们在各大招聘网站上看到的绝大多数都是基于业务驱动的算法工程师,这类算法工程师主要以算法的应用并且为企业直接或间接带来利润为主要目的,也是我们大多数人关注的原创 2022-01-28 15:27:12 · 3881 阅读 · 0 评论 -
金融风控实战——额度模型与风控策略
消费金融风控策略原创 2022-01-29 22:28:00 · 4403 阅读 · 0 评论 -
金融风控实战——反欺诈评分卡的大致构建流程
# 导入包import numpy as npimport pandas as pdimport warningswarnings.filterwarnings('ignore')import matplotlib.pyplot as pltimport matplotlib.gridspec as gridspecimport seaborn as snsplt.style.use('ggplot')import warningswarnings.filterwarnings('原创 2022-02-03 21:42:32 · 2466 阅读 · 0 评论 -
金融风控实战——申请评分卡
import pandas as pdimport numpy as npfrom scipy.stats import modeimport matplotlib.pyplot as pltimport seaborn as snsimport warningsfrom sklearn.preprocessing import LabelEncoderfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_原创 2022-02-04 22:20:31 · 2487 阅读 · 0 评论 -
金融风控实战——信贷评分卡
信贷评分卡介绍风控系统业务流程 在一个完整的风控系统中,信贷准入模型在整个体系的前半部分,下面我们了解一下一个完整的风控系统是如何构建的获客阶段 基本的,对于一个信贷产品来说,首先要有目标客户愿意去使用才有构建信贷准入模型的意义,对于小型信贷公司来说,如果本身用户的数量很少,人工信审和评估绰绰有余,则没有太大的必要去使用人工智能技术来处理信贷审批的问题,当用户的数量到达了较大量级之后才有意义,对于银行来说,用户不是问题,银行本身用户的量级一般都很大并且质量整体较好,对于互联网巨头来说,例如阿里、原创 2022-02-05 16:15:27 · 4722 阅读 · 0 评论 -
金融风控实战——Hive详解(数据读取、预处理、特征工程)
大数据技术介绍大数据技术的介绍: 1、存储,我们需要了解在大数据的架构下,数据大致是怎么进行存储的,传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是用户在实际的应用中,看到的是一个文件系统而不是多个文件系统。比如要获取/hdfs/tmp/file1的数据,看起来和单机无异,引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。作为用户,不需要知道数据具体是怎么存储在分布式系原创 2022-02-05 20:28:28 · 4781 阅读 · 0 评论 -
金融风控实战——决策树规则挖掘模板
本数据为滴滴司机使用油品贷的数据。油品贷的坏账率高达5%,非常高,一定是会赔钱的。并且能够通过欺诈检测。来申请油品贷的司机本身是已经有A卡了,A卡评级为A-F。本来是只有F不放款,但是在油品贷上只有评级为A放款才能不亏钱。滴滴是和很多加油站有合作的,加油站会给滴滴提供司机数据。导入相关的包import pandas as pdimport numpy as np#消除Warningimport warningswarnings.filterwarnings("ignore")读取油原创 2022-02-13 01:43:55 · 713 阅读 · 1 评论 -
金融风控实战——基于时间序列进行特征衍生
import numpy as npimport pandas as pdimport warningswarnings.filterwarnings("ignore")给大家写了35个函数,我们逐个来看一下#最近p个月,inv>0的月份数def Num(inv,p): df=data.loc[:,inv+'1':inv+str(p)] auto_value=np.where(df>0,1,0).sum(axis=1) return inv+'_num.原创 2022-02-14 03:18:19 · 623 阅读 · 0 评论 -
金融风控实战——特征工程上
特征工程业务建模流程将业务抽象为分类or回归问题 定义标签,得到y 选取合适的样本,并匹配出全部的信息作为特征来源 特征工程+模型训练+模型评价与调优(相互之间可能会有交互) 输出模型报告 上线与监控什么是特征在机器学习的背景下,特征是用来解释现象发生的单个特性或一组特性。 当这些特性转换为某种可度量的形式时,它们被称为特征。举个例子,假设你有一个学生列表,这个列表里包含每个学生的姓名、学习小时数、IQ和之前考试的总分数。现在,有一个新学生,你知道他/她的学习小时数和IQ..原创 2021-12-05 20:11:35 · 1364 阅读 · 1 评论 -
金融风控实战——特征工程下
特征选择Filter移除低方差的特征 (Removing features with low variance)单变量特征选择 (Univariate feature selection)Wrapper递归特征消除 (Recursive Feature Elimination)Embedded使用SelectFromModel选择特征 (Feature selection using SelectFromModel)将特征选择过程融入pipeline (Feature select原创 2022-02-15 20:30:41 · 388 阅读 · 0 评论 -
金融风控实战——信贷特征衍生与筛选(中国移动人群画像赛TOP1)
运营商变量的深度挖掘我们以本次比赛的特征为例进行展开的描述:1、用户实名制是否通过核实 1为是0为否 目前国内基本上是手机卡绑定身份证,当然有部分落后地区仍旧存在着买卖所谓流量卡这类的经营活动,一般这类特征常常作为反欺诈特征作为反欺诈规则的一部分,除此之外,用户的实名制使用的身份证数据一般是可以获取的,对于身份证进行分割提取变量也是比较常见的衍生手段:首先,这里的11代表了所在省份的代码,我们常通过码表,来对将编码转化为具体的明文:(下面列出部分码表)这里我们就可以衍生出用户所在省份为北京同样原创 2022-02-25 20:00:55 · 1892 阅读 · 1 评论 -
金融风控实战——逻辑回归与评分卡模型(下)
import pandas as pdfrom sklearn.metrics import roc_auc_score,roc_curve,aucfrom sklearn.model_selection import train_test_splitfrom sklearn import metricsfrom sklearn.linear_model import LogisticRegressionimport numpy as npimport randomimport math.原创 2021-12-15 22:39:44 · 2050 阅读 · 0 评论 -
金融风控实战——集成学习
xgb依然要去除共线性、变量选择lr bivar要严格单调,xgb、lightGBM不需要原创 2022-02-22 21:24:53 · 1024 阅读 · 0 评论 -
金融风控实战——不均衡学习
数据不平衡在很多真实场景下,数据集往往是不平衡的。也就是说,在数据集中,有一类含有的数据要远远多于其他类的数据(类别分布不平衡)。在贷款场景下,我们主要介绍二分类中的类别不平衡问题。常识告诉我们一家信用正常客户的数据要远远多于欺诈客户的。考虑一个简单的例子,10万正样本(正常客户标签为0)与1000个负样本(欺诈客户标签为1),正负样本比列为100:1,如果直接带入模型中去学习,每一次梯度下降如果使用全量样本,负样本的权重只有不到1/100,即使完全不学习负样本的信息,准确率也有超过99%,所以显然我原创 2022-02-23 18:56:33 · 2485 阅读 · 0 评论 -
金融风控实战——模型融合
过采样方法使用条件(1)负样本可以代表样本空间(2)数据是足够干净的(样本、特征没有噪声)过拟合(1)增多数据(2)特征筛选(3)调参(4)模型融合模型融合投票器模型融合from sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.svm import原创 2022-02-24 19:59:05 · 1557 阅读 · 0 评论 -
金融风控实战——可解释人工智能技术
可解释的基本概念机器学习/人工智能可解释性(简称 XAI)正变得越来越流行。随着算法在金融、医疗保健和保险等行业的高风险决策中变得越来越普遍,对可解释性的需求持续增长。关于“可解释性”的精确定义,目前工业界和学术界仍未达成一个统一的标准,但是一个比较简单直接的定义为:“可解释性”是帮助 人工智能技术的的决策和行为能够被人类理解的一系列方法。可解释人工智能技术中的大部分概念和我们熟悉的人工智能技术中的概念是完全相同的,例如数据集,样本,特征,模型等等,这里需要额外说明两个在可解释人工智能技术中相对比较独特原创 2022-03-07 21:19:52 · 2700 阅读 · 0 评论 -
金融风控实战——迁移学习
迁移学习为什么做迁移?源域样本和目标域样本分布有区别,目标域样本量又不够。场景思考我们平时建模会使用到迁移学习的一些场景:1)新开了某个消费分期的场景只有少量样本,需要用其他场景的数据进行建模;2)业务被迫停止3个月后项目重启,大部分训练样本比较老旧,新的训练样本又不够;3)在某个新的国家开展了类似国内的业务,因为国情不同,显然部分特征分布是不同的;主要任务缩小边缘分布之间和条件分布下的差异。几个基本概念:Domain(域):包括两部分:feature space(特征空间)和pr原创 2022-03-10 19:52:29 · 2500 阅读 · 4 评论 -
金融风控实战——有监督分箱
卡方分箱 分箱的方法有很多,卡方分箱属于其中一种,属于有监督系列的。卡方分箱正是一种基于卡方检验的分箱方法,更具地说是基于上面提到的第二种应用,独立性检验,来实现核心分箱功能的。 卡方分箱算法简单来说,有两个部分组成:1)初始化步骤;2)合并。小栗子:计算所有相邻分箱的卡方值:也就是说如果有1,2,3,4个分箱,那么就需要绑定相邻的两个分箱,共三组:12,23,34。然后分别计算三个绑定组的卡方值。从计算的卡方值中找出最小的一个,并把这两个分箱合并:比如,23是卡方值最小的一个,那么就将2和原创 2022-03-12 21:31:31 · 1898 阅读 · 4 评论 -
金融风控实战——信贷准入模型
import pandas as pd from sklearn.metrics import roc_auc_score,roc_curve,auc from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression import numpy as np import math import xgboost as xgb import原创 2022-03-24 19:58:13 · 2552 阅读 · 0 评论 -
金融风控实战—模型可解释之shap
import timeimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitimport xgboostimport pandas as pdimport numpy as np#混淆矩阵计算from sklearn import metricsfrom sklearn.metrics import roc_curve, auc,roc_auc_scorefrom sklearn原创 2022-04-06 01:07:13 · 3978 阅读 · 0 评论 -
金融风控实战——异常检测(一)
反欺诈项目很多情况下就是客户根本不知道什么是欺诈,什么不是。换句话说,诈骗的定义很模糊。往小了说,反诈骗似乎是一个二分类问题(binary classification),但你仔细想想后会发现其实这是个多分类问题(multi-class classification),因为可以每种不同的诈骗都当做一种单独的类型。除了欺诈手段多样且持续变化,欺诈检测一般还面临以下问题:因此,在实际情况中,我不建议直接用任何监督学习,至少不能单纯依靠一个监督学习模型来奢求检测到所有的诈骗。这就陷入了一个死循环,因为没有历史标签原创 2022-06-09 10:06:37 · 2822 阅读 · 4 评论 -
金融风控实战——基于无监督算法的异常检测实战案例
异常检测原创 2022-06-08 00:37:57 · 1839 阅读 · 1 评论 -
金融风控实战——复杂网络
(a,b)——>(起始点,结束点)v6连接了三个节点,v3、v7、v5但是这三个节点都是小菜鸡某个节点的影响力不光要考虑关联的节点数,同时要考虑关联节点的重要性原创 2022-06-15 14:42:14 · 390 阅读 · 0 评论 -
金融风控实战——社交网络分析
上节课有同学希望能讲一些设备指纹的内容,所以这节课我们先讲一下设备指纹,作为反欺诈图谱的基础。可以把手机设备理解成一个人,像人一样有身份证号和名字(设备序列号等),没有化妆(篡改)、没有被假冒(设备账户被盗用、冒用)等,是用于唯一标识出该设备的设备特征或者独特的设备标识。一般都是基于某些设备信息,通过一些设备指纹算法会将这些信息组合起来,通过特定的hash算法得到一个最后的ID值,作为该设备的唯一标识符。常见的元素有:主动式设备指纹技术需要在客户端上植入自己的Javascript或SDK代码,主动收集设备相原创 2022-06-15 21:12:41 · 1228 阅读 · 1 评论