scorecardpy库的使用简介

最新推荐文章于 2024-08-21 08:49:57 发布

Labryant

最新推荐文章于 2024-08-21 08:49:57 发布

阅读量5.9k

点赞数 8

分类专栏：风控

本文链接：https://blog.csdn.net/lc434699300/article/details/106915132

版权

本文介绍了如何使用Python库scorecardpy进行信贷评分卡建模，包括数据划分、变量分箱、WOE转换、模型建立和评估。scorecardpy提供了便捷的函数如woebin、scorecard等，便于进行信用风险模型的开发。文章还提到了scorecardpy相较于其他库的特点，并分享了实际操作中的体验和建议。

摘要由CSDN通过智能技术生成

　Python中信贷评分卡中常用的两个库有scorecardpy和Toad。其中scorecardpy是由谢士晨博士开发，Toad是由厚本金融风控团队内部孵化产生的标准评分卡库。关于Toad的使用，之前已经写过学习教程，Toad库使用教程，今天学习一下scorecardpy库的使用。github链接见：
scorecardpy

　该软件包是R软件包评分卡的python版本。它的目标是通过提供一些常见任务的功能，使传统信用风险计分卡模型的开发更加轻松有效。该包的功能及对应的函数如下：

数据划分(split_df)
变量选择(iv, var_filter)
变量分箱(woebin, woebin_plot, woebin_adj, woebin_ply)
评分转换(scorecard, scorecard_ply)
模型评估(perf_eva, perf_psi)

　首先，导入germancredit数据。

import scorecardpy as sc
dat = sc.germancredit()

dt_s = sc.var_filter(dat, y="creditability")

　这个函数可以根据指定的条件筛选变量，例如IV值、缺失率、一致性等，函数的参数如下:

def var_filter(dt, y, x=None, iv_limit=0.02, missing_limit=0.95, 
               identical_limit=0.95, var_rm=None, var_kp=None, 
               return_rm_reason=False, positive='bad|1')

var_rm：强制删除变量的名称
var_kp：强制保留变量的名称
return_rm_reason：是否返回每个变量被删除的原因
positive:坏样本的标签

数据划分

train, test = sc.split_df(dt_s, 'creditability').values()

def split_df(dt, y=None, ratio=0.7, seed=186)

　该函数的ratio默认为0.7，即按照7:3对数据集进行分割。ratio可以随意进行设置，比如[0.5,0.2]

变量分箱

bins

最低0.47元/天解锁文章

Labryant

关注

8
点赞
踩
61

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录