python ks值计算_利用Python计算KS的实例详解

在金融领域中,我们的y值和预测得到的违约概率刚好是两个分布未知的两个分布。好的信用风控模型一般从准确性、稳定性和可解释性来评估模型。sOf免费资源网

一般来说。好人样本的分布同坏人样本的分布应该是有很大不同的,KS正好是有效性指标中的区分能力指标:KS用于模型风险区分能力进行评估,KS指标衡量的是好坏样本累计分布之间的差值。sOf免费资源网

好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。sOf免费资源网

1、crosstab实现,计算ks的核心就是好坏人的累积概率分布,我们采用pandas.crosstab函数来计算累积概率分布。sOf免费资源网

2、roc_curve实现,sklearn库中的roc_curve函数计算roc和auc时,计算过程中已经得到好坏人的累积概率分布,同时我们利用sklearn.metrics.roc_curve来计算ks值sOf免费资源网

3、ks_2samp实现,调用stats.ks_2samp()函数来计算。链接scipy.stats.ks_2samp¶为ks_2samp()实现源码,这里实现了详细过程sOf免费资源网

4、直接调用stats.ks_2samp()计算kssOf免费资源网

import pandas as pd

import numpy as np

from sklearn.metrics import roc_curve

from scipy.stats import ks_2samp

def ks_calc_cross(data,pred,y_label):

'''

功能: 计算KS值,输出对应分割点和累计分布函数曲线图

输入值:

data: 二维数组或dataframe,包括模型得分和真实的标签

pred: 一维数组或series,代表模型得分(一般为预测正类的概率)

y_label: 一维数组或series,代表真实的标签({0,1}或{-1,1})

输出值:

'ks': KS值,'crossdens': 好坏客户累积概率分布以及其差值gap

'''

crossfreq = pd.crosstab(data[pred[0]],data[y_label[0]])

crossdens = crossfreq.cumsum(axis=0) / crossfreq.sum()

crossdens['gap'] = abs(crossdens[0] - crossdens[1])

ks = crossdens[crossdens['gap'] == crossdens['gap'].max()]

return ks,crossdens

def ks_calc_auc(data,pred,y_label):

'''

功能: 计算KS值,输出对应分割点和累计分布函数曲线图

输入值:

data: 二维数组或dataframe,包括模型得分和真实的标签

pred: 一维数组或series,代表模型得分(一般为预测正类的概率)

y_label: 一维数组或series,代表真实的标签({0,1}或{-1,1})

输出值:

'ks': KS值

'''

fpr,tpr,thresholds= roc_curve(data[y_label[0]],data[pred[0]])

ks = max(tpr-fpr)

return ks

def ks_calc_2samp(data,pred,y_label):

'''

功能: 计算KS值,输出对应分割点和累计分布函数曲线图

输入值:

data: 二维数组或dataframe,包括模型得分和真实的标签

pred: 一维数组或series,代表模型得分(一般为预测正类的概率)

y_label: 一维数组或series,代表真实的标签({0,1}或{-1,1})

输出值:

'ks': KS值,'cdf_df': 好坏客户累积概率分布以及其差值gap

'''

Bad = data.loc[data[y_label[0]]==1,pred[0]]

Good = data.loc[data[y_label[0]]==0, pred[0]]

data1 = Bad.values

data2 = Good.values

n1 = data1.shape[0]

n2 = data2.shape[0]

data1 = np.sort(data1)

data2 = np.sort(data2)

data_all = np.concatenate([data1,data2])

cdf1 = np.searchsorted(data1,data_all,side='right')/(1.0*n1)

cdf2 = (np.searchsorted(data2,data_all,side='right'))/(1.0*n2)

ks = np.max(np.absolute(cdf1-cdf2))

cdf1_df = pd.DataFrame(cdf1)

cdf2_df = pd.DataFrame(cdf2)

cdf_df = pd.concat([cdf1_df,cdf2_df],axis = 1)

cdf_df.columns = ['cdf_Bad','cdf_Good']

cdf_df['gap'] = cdf_df['cdf_Bad']-cdf_df['cdf_Good']

return ks,cdf_df

data = {'y_label':[1,1,1,1,1,1,0,0,0,0,0,0],

'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9]}

data = pd.DataFrame(data)

ks1,crossdens=ks_calc_cross(data,['pred'], ['y_label'])

ks2=ks_calc_auc(data,['pred'], ['y_label'])

ks3=ks_calc_2samp(data,['pred'], ['y_label'])

get_ks = lambda y_pred,y_true: ks_2samp(y_pred[y_true==1], y_pred[y_true!=1]).statistic

ks4=get_ks(data['pred'],data['y_label'])

print('KS1:',ks1['gap'].values)

print('KS2:',ks2)

print('KS3:',ks3[0])

print('KS4:',ks4)

输出结果:sOf免费资源网

KS1: [ 0.83333333]

KS2: 0.833333333333

KS3: 0.833333333333

KS4: 0.833333333333

sOf免费资源网

当数据中存在NAN数据时,有一些问题需要注意!sOf免费资源网

例如,我们在原数据中增加了y_label=0,pred=np.nan这样一组数据sOf免费资源网

data = {'y_label':[1,1,1,1,1,1,0,0,0,0,0,0,0],sOf免费资源网

'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9,np.nan]}sOf免费资源网

此时执行sOf免费资源网

ks1,crossdens=ks_calc_cross(data,['pred'], ['y_label'])sOf免费资源网

输出结果sOf免费资源网

KS1: [ 0.83333333]sOf免费资源网

执行sOf免费资源网

ks2=ks_calc_auc(data,['pred'], ['y_label'])sOf免费资源网

将会报以下错误sOf免费资源网

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').sOf免费资源网

执行sOf免费资源网

ks3=ks_calc_2samp(data,['pred'], ['y_label'])sOf免费资源网

输出结果sOf免费资源网

KS3: 0.714285714286sOf免费资源网

执行sOf免费资源网

ks4=get_ks(data['pred'],data['y_label'])sOf免费资源网

输出结果sOf免费资源网

KS4: 0.714285714286sOf免费资源网

我们从上述结果中可以看出sOf免费资源网

三种方法计算得到的ks值均不相同。sOf免费资源网

ks_calc_cross计算时忽略了NAN,计算得到了数据正确的概率分布,计算的ks与我们手算的ks相同sOf免费资源网

ks_calc_auc函数由于内置函数无法处理NAN值,直接报错了,所以如果需要ks_calc_auc计算ks值时,需要提前去除NAN值。sOf免费资源网

ks_calc_2samp计算得到的ks因为searchsorted()函数(有兴趣的同学可以自己模拟数据看下这个函数),会将Nan值默认排序为最大值,从而改变了数据的原始累积分布概率,导致计算得到的ks和真实的ks有误差。sOf免费资源网

在实际情况下,我们一般计算违约概率的ks值,这时是不存在NAN值的。所以以上三种方法计算ks值均可。但是当我们计算单变量的ks值时,有时数据质量不好,存在NAN值时,继续采用ks_calc_auc和ks_calc_2samp就会存在问题。sOf免费资源网

解决办法有两个sOf免费资源网

1. 提前去除数据中的NAN值sOf免费资源网

2. 直接采用ks_calc_cross计算。sOf免费资源网

以上这篇利用Python计算KS的实例详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。sOf免费资源网

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值