金融风控
文章平均质量分 92
忘川之水&
不要一味地低头拉车,还要抬头仰望生活。
展开
-
面试常见之混淆矩阵各种率
混淆矩阵简洁版:召回率:针对原来样本的,表示样本中正例有多少被预测正确的。 TP/TP+FN精确率:针对预测结果的,预测为正的样本中有多少是真正的正样本 TP/TP+FP通过率:模型判断为好样本的数量占总样本数的比例,TP+FP/TP+FN+FP+FN坏账率:模型为好样本中真正坏样本的比例 FP/TP+FP错误率:FN+FP/TP+FN+FP+TN正确率:TP+FN/TP+FN+FP+TN真正率:预测为正,实际为正的样本占所有正例样本的比例 TP/TP+FN假正率:预测为正,实际为负的样本原创 2020-12-01 18:28:26 · 796 阅读 · 0 评论 -
金融风控项目各钟指标用途汇总
文章目录WOE 编码:卡方值IV 值PSI指标:通过率坏账率混淆矩阵错误率:精度或正确率:召回率精准率F1指标:K-L散度:K-S曲线:K-S值:几率:汇总:WOE 编码:就是对坏样本分布与好样本分布的比值再进行对数变换的结果在这里插入图片描述WOE 编码可以表示变量的预测能力,WOE 越大,概率值越大。WOE 值可以衡量不同类别的样本分布的差异情况Bad i /Bad total -Good i /Good total 可以衡量差异的重要程度卡方值卡方值的大小衡量相邻区间中类分布原创 2020-11-30 19:27:41 · 864 阅读 · 0 评论 -
模型评估指标之概率分布评估指标(二)
一. ROC曲线:横轴是FPR(False Positive Rate),纵轴是TPR(True Positive Rate)。 关于ROC的绘制过程上篇文章已经讲解过了ROC曲线的绘制咱们在这里简单介绍一下:一个完美的模型可以通过设定一个概率阈值点,使得大于该概率阈值的样本均为正样本即坏样本,小于该概率阈值的样本均为负样本即好样本。由图可以看出:ROC 曲线由 A 点经过 B 点到达 C 点,表示在舍弃 0%的好用户的前提下,可以 100%地拒绝坏用户,即没有坏用户被准入图中虚线可以看原创 2020-11-26 19:34:47 · 2612 阅读 · 0 评论 -
透析混淆矩阵(举例说明)
混淆矩阵(confusion matrix)衡量的是一个分类器分类的准确程度。理解其概念本身容易理解,但一些特定术语易被混淆。混淆矩阵的基本模式:这里就给大家举一个例子来更好的说明一下混淆矩阵的各种情况观察混淆矩阵,可得如下结论:示例是一个二元分类问题,产生两种可能的分类:“是”或者“不是”。当预测一个事件是否发生时,“是”意味着该事件已经发生,而“否”则相反,该事件没有发生。该模型对这个事件进行了100次预测。在这100次预测结果中,“是”有45次,“否”有55次。但实际上原创 2020-11-25 19:05:16 · 7748 阅读 · 4 评论 -
ROC曲线绘制(详细)以及模型选择
在我们在讲解ROC曲线之前 首先要明确混淆矩阵的概念如下图:真正率 TPR:预测为正例且实际为正例的样本占所有正例样本(真实结果为正样本)的比例。假正率 FPR:预测为正例但实际为负例的样本占所有负例样本(真实结果为负样本)的比例。公式:下面进入正题:一 :ROC曲线简介来自百度百科解释(讲了半天我也没看懂) 接受者操作特性曲线(receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得原创 2020-11-24 19:22:39 · 87753 阅读 · 14 评论 -
模型的评估指标(一)
模型的开发基于历史数据,而模型的使用则针对未来的数据模型在训练集上的误差(即真实结果与预测结果间的差异)称为训练误差或经验误差模型在验证集与测试集上的误差称为泛化误差。正负样本的选择二分类问题中有正负样本的概念,多分类中不需要定义正负样本的定义没有明确的要求,但是在正负样本定义完后计算指标的含义会有所差异#往往将少数样本定义为正样本少数样本为正样本,即以违约样本(坏样本)为正样本好处:1>方便应对样本的不均衡问题2>关注对坏样本的预测能力更符合业务场景。以多数样本原创 2020-11-23 19:36:27 · 1969 阅读 · 0 评论 -
基于python的数据清洗与预处理
文章目录数据集成数据清洗探索性分析(EDA)数据集字段说明代码实现读取数据集区分离散变量和连续变量添加两列时间格式的数据添加冗余数据特殊字符清洗时间格式统一样本去除冗余探索性分析添加缺失值缺失值绘图对于连续数据绘制箱线图,观察是否有异常值查看数据分布源码在一些项目的开始,我们首先是对业务进行熟悉,其次是我们作为‘码农’,就开始着手于我们的数据了。首先要对我们的数据进行清洗与预处理. 本片文章就介绍了数据清洗与预处理。数据集成评分卡模型开发需求确定后,接下来需要收集数据,进行数据集成。为了全面地描述原创 2020-11-18 20:19:55 · 2175 阅读 · 0 评论 -
金融风控开端----滚动率分析
滚动率分析是一种重要的好坏样本定义的方法滚动率分析是以真实的借款数据为基础,通过统计样本在不同逾期状态中的递延状态,进而确定好坏样本的定义,计算结果如表所示。注意,表中的数据为示意性数据,并非实际业务中的真实结果。表格中的行表示时间,列表示状态转移。首先明确一下逾期的不同状态。M0 状态:用户正常还款,也可以表示为 c。M1 状态:超过还款日 1 到 30 天且不足 30 天的逾期状态。M2 状态:超过还款日 30 天到 60 天且不足 60 天的逾期状态。M3 状态:超过还款日 60原创 2020-11-19 18:23:29 · 2115 阅读 · 0 评论