以German信用数据为例的logistics regression算法在评分卡上的实践

最新推荐文章于 2022-06-23 00:37:12 发布

weixin_34208185

最新推荐文章于 2022-06-23 00:37:12 发布

阅读量1.7k

点赞数

文章标签：数据结构与算法 python 人工智能

原文链接：http://blog.51cto.com/4292565/1861560

版权

本文以德国信用数据集为例，利用logistic regression算法构建信用评分卡。内容包括数据导入、woe值计算、数据转换、训练集与测试集划分、模型训练、精度评估及评分卡创建。未涉及特征选择。

摘要由CSDN通过智能技术生成

以德国信用数据为例，用logistict regression算法做信用评分卡原理性实现，因此并未考虑feature selection.

第一步：导入必要的库

import pandas as pd
import numpy as np
from sklearn.cross_validation import train_test_split

第二步：导入数据

german = pd.read_csv('D:/CreditDatasets/german.data', sep=' ', header=None)
german.columns = ['Status_of_existing_checking_account', 'Duration_in_month', 'Credit_history','Purpose', 'Credit_amount', 'Savings_account', 'Present_employment_since','Installment_rate', 'Personal_status_and_sex', 'Other_debtors', 'Present_residence_since','Property', 'Age', 'Other_installment_plans', 'Housing', 'Number_of_existing_credits','Job', 'Number_of_people', 'Telephone', 'foreign_worker', 'default']
Grp = german.groupby('default')
total_good = Grp.size()[1]
total_bad = Grp.size()[2]

第三步：分别计算名义变量和数值变量的woe值，对取值较少的数值变量也用名义变量woe计算方法实现，其余数值变量均5等分

def CalcWOE(VarName):
    WOE_Map = pd.DataFrame()
    Vars = np.unique(german[VarName])
    for v in Vars:
        tmp = german[VarName] == v
        grp = german[tmp].groupby('default')
        Good = grp.size()[1]
        Bad = grp.size()[2]
        good_ratio = float(Good)/total_good
        bad_ratio = float(Bad)/total_bad
        WOE = np.log(bad_ratio/good_ratio)
        IV = (bad_ratio - good_ratio)*WOE
        result = pd.DataFrame([[VarName, v, WOE, IV]], index=None, columns=['variable', 'class', 'woe', 'iv'])
        WOE_Map = WOE_Map.append(result, ignore_index=True)
    return WOE_Map

# nominal variable woe
status_checking_account_woe

最低0.47元/天解锁文章

weixin_34208185

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
以German信用数据为例的logistics regression算法在评分卡上的实践

以德国信用数据为例，用logistict regression算法做信用评分卡原理性实现，因此并未考虑feature selection.第一步：导入必要的库importpandasaspdimportnumpyasnpfromsklearn.cross_validationimporttrain_test_split第二步：导入数据german=p...
复制链接

扫一扫