风控与反欺诈模型
文章平均质量分 68
Michael_Shentu
感兴趣方向:分布式计算与存储,广告计算学,分布式数据挖掘与机器学习,Hadoop,Spark,HBase
展开
-
评分卡模型中的IV和WOE详解
1.IV的用途IV的全称是InformationValue,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入原创 2017-12-11 13:17:39 · 57849 阅读 · 2 评论 -
风控模型开发流程以及好坏样本 观察期 表现期的定义
模型开发流程评分模型流程图流程图阐述该小结提出了一些数据指标,如果不明白没有关系,往后的文章笔者会一个个地解释这些指标的含义和计算方法数据获取:获取建模所需要的数据,一般分为内部为外部数据,内部数据例如贷款公司内部搜集存储的客户信息,例如客户在平台内部的登陆、注册、消费信息等,外部数据一般有第三方数据,例如人行征信报告、一些第三方机构提供的多头借贷等EDA与数据描述,EDA全称explore da...原创 2018-06-20 11:46:18 · 353 阅读 · 0 评论 -
逻辑回归模型中的回归系数的正负性符号的理解
WOE编码方式:逻辑回归的线性公式可以表示为:Ln(p/(1-p)) =β0+β1*x1+β2*x2+β3*x3+...+βn*xn其中,P是逻辑回归模型预测的负样本概率,Xn表示经过WOE编码后的特征,在风控场景下当概率P表示负样本出现的概率时,Ln(P/(1-P)表示的是负样本概率与正样本概率之比,因此假如当WOE公式是由上图中给出的形式,即每个bin下的正样本占全局正样本...原创 2020-05-02 10:09:17 · 432 阅读 · 0 评论 -
深入解读Logistic回归结果(一):回归系数,OR
转载地址:http://blog.sina.com.cn/s/blog_44befaf60102vznn.htmlLogistic回归虽然名字叫”回归”,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。一 从线性回归到Logistic回归线性回归和Logistic回归都是广义线性模型的特例。假设有一个因变量y和一组自变量x1, x2, x3, ... , x...原创 2018-03-27 14:53:39 · 513 阅读 · 0 评论 -
回归结果的一般解释
一、参数解释:1、回归系数(coefficient)注意回归系数的正负要符合理论和实际。截距项的回归系数无论是否通过T检验都没有实际的经济意义。2、回归系数的标准误差(Std.Error)标准误差越大,回归系数的估计值越不可靠,这可以通过T值的计算公式可知3、T检验值(t-Statistic)T值检验回归系数是否等于某一特定值,在回归方程中这一特定值为0,因此T值=...原创 2018-03-26 17:38:19 · 181 阅读 · 1 评论 -
评分卡模型之多变量分析:相关性与多重共线性处理步骤
评分卡模型中对于特征的相关性与多重共线性问题比较关注,在特征经过WOE编码后,会进一步进行特征的单变量与多变量分析。在单变量分析中,我们可以通过检查变量的IV值,根据IV阈值来判定该变量是否该从特征体系中删除出去。在经过单变量分析后,我们还会进一步进行多变量分析,来检查特征之间的相关性与多重共线性问题,因为相关性与多重共线性问题的存在,可能会造成模型的过拟合问题。所有的单变量和多变量分析 都是针对...原创 2018-03-16 10:45:02 · 215 阅读 · 1 评论 -
评分卡模型之WOE编码与bad rate单调性关系
一般在评分卡模型中对于特征的编码,更多的采用WOE编码,而不是one-hot编码形式。原创 2018-07-05 09:52:29 · 128 阅读 · 0 评论 -
评分卡模型之特征工程中的BadRate单调与特征分箱之间的联系
Bad Rate:坏样本率,指的是将特征进行分箱之后,每个bin下的样本所统计得到的坏样本率bad rate 单调性与不同的特征场景:在评分卡模型中,对于比较严格的评分模型,会要求连续性变量和有序性的变量在经过分箱后需要保证bad rate的单调性。 1. 连续性变量: 在严格的评分卡模型中,对于连续型变量就需要满足分箱后 所有的bin的 bad ...原创 2018-09-03 16:55:34 · 8947 阅读 · 2 评论 -
显著性水平 P值 概念解释
P是“拒绝原假设时犯错误概率”又或者说是“如果你拒绝掉原假设实际上是在冤枉好人的概率”。不管怎么表达理解上都有点绕,所以你还是看例子吧。比如你做一个假设( null hypothesis):你的女性朋友平均身高2米,输入你统计的样本数据后,计算机给你返回的p值是0.03。这意味着如果你拒绝“女性朋友平均身高2米”这个结论,犯错的概率是0.03,小于0.05(人们一般认为拒绝一句话时犯错概率小于0....原创 2017-12-11 17:10:49 · 38161 阅读 · 13 评论 -
信用模型中对于类别变量的编码方式:dummy编码和WOE编码
最常见的用于信用评分的模型就是logistic回归,这是一种处理二分类因变量的广义线性模型。这种模型的理论基础比较扎实,但是对于不同的问题当然也存在一些特殊的处理方式,我最大的困惑就在于建模时对分类自变量的处理方法。由于制作评分卡的某些需要,通常会在建立评分模型时将自变量做离散化处理(等宽切割,等高切割,或者利用决策树来切割),但是模型本身没办法很好地直接接受分类自变量的输入,因此需要对自转载 2017-12-11 15:43:06 · 4395 阅读 · 0 评论 -
模型的几大评价指标
下载 光大银行-《商业银行数据资产会计核算研究报告》下载 《商业银行数据资产管理体系建设实践报告》下载 上海银行《商业银行数据资产体系白皮书》5. 回复关键字:商业银行数据资产管理。1. 回复关键字:数据资源入表白皮书。下载 《2023数据资源入表白皮书》下载 《商业银行数据资产估值白皮书》, 获得数据资产相关白皮书下载地址。3. 回复关键字:数据资产估值。2. 回复关键字:光大银行。4. 回复关键字:上海银行。原创 2018-07-12 09:33:33 · 56 阅读 · 0 评论
分享