![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
统计指标
baidu-liuming
机器学习 深度学习 大数据 自然语言处理 linux python shell hive 算法
展开
-
PSI的计算
PSI:检验变量的稳定性,当一个变量的psi值大于0.0001时,变量不稳定。一个变量,将它的取值按照分位数来分组一下,每一组中测试模型的客户数占比减去训练模型中的客户数占比再乘以这两者相除的对数,就是这一组的稳定性系数psi,然后变量的psi系数就是把这个变量的所有组的psi相加总起来。计算某个变量的PSI,上面这段话中测试模型和训练模型替换成两个月份即可。例如,下表是某个变量,以2018年...转载 2019-07-21 17:09:40 · 1790 阅读 · 0 评论 -
python计算ks
在金融领域中,我们的y值和预测得到的违约概率刚好是两个分布未知的两个分布。好的信用风控模型一般从准确性、稳定性和可解释性来评估模型。一般来说。好人样本的分布同坏人样本的分布应该是有很大不同的,KS正好是有效性指标中的区分能力指标:**KS用于模型风险区分能力进行评估,KS指标衡量的是好坏样本累计分布之间的差值。**好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。1、crossta...转载 2019-07-21 17:22:19 · 8625 阅读 · 0 评论 -
模型评估指标AUC(area under the curve)
AUC在机器学习领域中是一种模型评估指标。根据维基百科的定义,AUC(area under the curve)是ROC曲线下的面积。所以,在理解AUC之前,要先了解ROC是什么。而ROC的计算又需要借助混淆矩阵,因此,我们先从混淆矩阵开始谈起。混淆矩阵假设,我们有一个任务:给定一些患者的样本,构建一个模型来预测肿瘤是不是恶性的。在这里,肿瘤要么良性,要么恶性,所以这是一个典型的二分类问题。...转载 2019-07-28 17:31:55 · 1209 阅读 · 0 评论 -
均值-中位数-众数-极差-中程数-方差-标准差-变异系数
一、数据挖掘&算法前奏之data exploration做什么一个数字序列,如何通过简单的统计指标,直接&直观地描述这个数字序列的一些基本属性,是数据处理与理解的刚需。做数据挖掘和机器学习以及任何与数字序列相关的算法工作之前,一般,我们都做一做data exploration的工作,意思大概就是说,要首先看看这个数字序列的:基本统计指标是什么,有什么明显的数字趋势可见,或者符...转载 2019-07-28 20:36:42 · 3292 阅读 · 1 评论