Kaggle实践之《Home Credit Default Risk》的数据源理解

本文介绍了HomeCredit的信贷风险预测比赛,关注如何通过分析大量客户数据,包括合同类型、性别、收入、教育背景等,以及客户的信贷历史、征信记录来预测客户的违约行为。数据集包含训练集和测试集,涉及多个特征类别,如申请信息、征信信息和过去的贷款申请记录。
摘要由CSDN通过智能技术生成

比赛链接如下:https://www.kaggle.com/competitions/home-credit-default-risk/overview
该比赛是Home Credit公司拿出他们公司的实际问题设置题目,传统的金融机构需要客户有良好且连续的信用卡使用记录才给贷款,Home Credit想用科技的方法解决这个问题,找到那些有实际还款能力但是被传统金融机构拒绝的客户。

本赛题是要预测客户是否会违约,违约的客户会给公司带来实际的经济损失,因为我们要尽量的避免给这部分客户放贷。违约一般分两部分,一个是无还款能力、一个是无还款意愿。当然也有既无还款能力又无还款意愿的人,在这里我们认为无还款能力导致的欠款都是由于无还款能力。

1、数据探查

1.1 application_train/test

训练集30.75万(SK_ID_CURR是主键,其中违约人数是24825,占比8.07%),测试集4.87万,每个训练集&测试集都行都对应一个贷款申请,训练测试的比例是6.31:1。
训练集&测试集的特征及其含义如下:

特征类别特征名特征含义特征类型
name_contract_type合同类型是现金还是循环贷枚举值
code_gender客户性别枚举值
flag_own_car客户是否有汽车布尔
flag_own_realty客户是否有房产或公寓布尔
cnt_children客户的孩子数量数值
amt_income_total客户的总收入数值
amt_credit客户的贷款信贷额度数值
amt_annuity每年要还的贷款额度数值
amt_goods_price对于消费贷来说,这个字段是要买的商品价格,从数据看每个贷款都对应某个商品,难道业务全部是消费贷吗数值
name_type_suite办理贷款的时候是谁跟着一起来的:孩子、家人、配偶、自己、…枚举值
name_income_type收入来源:企业家、打工人、政府职员、养老金枚举值
name_education_type最高学历枚举值
name_family_status家庭状态:已婚、民事婚姻、单身、离婚、丧偶枚举值
name_house_type住房状态:租房、和父母住等枚举值
region_population_relative数字越大代表客户住的地方人口越密集数值
days_birth出生到现在的天数数值
days_employed从事当前工作多少天了,365243是异常数据,要剔除数值
days_registration多少天之前注册的数值
days_id_publish多少天之前修改了身份文件数值
own_car_age开的汽车的车龄数值
flag_mobil是否提供手机号,训练集中只有1个没提供布尔
flag_emp_phone是否提供工作电话,25万人提供了布尔
flag_work_phone是否提供家庭电话,6万人提供布尔
flag_cont_mobile电话能不能打通,574个人打不通布尔
flag_phone是否提供家庭电话,8万人提供布尔
flag_email是否提供email,1.7万提供布尔
occupation_type职业类型枚举值
cnt_fam_members家庭成员数量数值
REGION_RATING_CLIENT/_W_CITY居住区域的等级顺序枚举值
WEEKDAY_APPR_PROCESS_START周几申请的贷款,一般工作日多枚举值
hours_appr_process_start几点申请的贷款24小时
REG_REGION_NOT_LIVE_REGION区域地址、城市地址的一系列验证,1是不一致、0是一致布尔
orgnization_type工作企业类型:相当于行业:广告、农业、工业、军队等枚举值
ext_source_1/2/3外部数据打分数值
APARTMENTS_AVG/FLOORSMAX_MODE,一共47个特征是一系列描述客户家房子的数据,有均值、众数、中位数数值
obs_30_cnt_social_circle、共4个特征客户的社会关系中有多少30天/60天逾期数值
days_last_phone_change申请贷款前的多少天换了手机数值
flag_document_2-21,共20个特征是否提供文件XX布尔
AMT_REQ_CREDIT_BUREAU_HOUR,共计6个特征申请贷款前1小时/天/周/月/季度/年查询了多少次征信数值

1.2 bureau

征信机构合计有171万数据(SK_ID_BUREAU是主键),对应30.58万贷款ID(其中26.35万是训练集,4.23万是测试集,比值是6.23:1,和之前的训练测试之比大致相当)。
征信机构特征如下:

特征类别特征名特征含义特征类型
credit_statusActive:630607、Bad debt:21、Closed:1079273、Sold:6527枚举值
CREDIT_CURRENCY信用货币类型,currency1-4,共四个特征枚举值
days_credit客户在申请日前多少天申请的征信机构信用枚举值
credit_day_overdue申请贷款时客户的逾期天数数值
days_credit_enddate客户的在征信机构还有多少天的信用时间数值
days_enddate_fact客户在征信机构关闭了多久的信用数值
amt_credit_max_overdue客户到目前为止的最大逾期额度数值
cnt_credit_prolong在征信机构有几次延期数值
amt_credit_sum客户当前在信用机构的信用额度数值
amt_credit_sum_debt客户在信用机构的当前债务数值
amt_credit_sum_limit信用卡的信用限额数值
amt_credit_sum_overdue客户在信用机构的违约之和数值
credit_type信用机构的信用类型,车贷、房贷、信用卡、经营贷等枚举值
days_credit_update信用机构的最近一次信息更新是多少天前数值
amt_annuity信用年金数值

1.3 bureau_balance

征信机构的账单信息表共有2729万条数据,对应81万SK_ID_BUREAU,占全部征信记录171万的47%(主键为SK_ID_BUREAU和MONTHS_BALANCE)。该表的唯一可用字段是STATUS,C代表closed、X是未知、0是无逾期、1是逾期在1-30天、2是逾期31-60天、3是逾期61-90天、4是逾期91-120天、5是逾期120天以上。

1.4 previous_application

该表是客户在申请这次贷款之前的申请记录,共计167万条(主键是SK_ID_PREV),对应33万SK_ID_CURR,可见当前训练和测试集中只有2万没有之前的贷款申请记录。

特征类别特征名特征含义特征类型
name_contract_type贷款合同类型,相比1.1多了消费贷和XNA枚举值
amt_annuity同1.1数值
amt_application之前的贷款申请了多少钱数值数值
amt_credit这个和申请不一样,这个额度是实际批下来的金额数值
amt_down_payment之前贷款的首付款数值
amt_goods_price同1.1数值
weekday_appr_process_start同1.1日期
hour_appr_process_start同1.1日期
flag_last_appl_per_contract有时一个合同会被错误的提交多次申请,这个字段用来标志是不是一个贷款的最后一次申请布尔
nflag_last_appl_in_day是不是当天的最后一次申请布尔
nflag_micro_cash是不是小微金融贷布尔
rate_down_payment归一化的贷款首付比例数值
rate_interest_primary主要贷款利息的归一化值数值
rate_interest_privileged优惠贷款利息的归一化值数值
name_cash_loan_purpose贷款用途枚举值
name_contract_type贷款合同类型,approved、cancel等枚举值
days_decision相对于当前贷款,上一次申请的决定是什么时候做的数值
name_payment_type客户选择上一次贷款的付款方式,现金、电子支付、XNA枚举值
code_reject_reason被拒原因,XAP、HC、LIMIT枚举值
name_type_suite办贷款时是和谁一起来的枚举值
name_client_type客户是新客还是老客二分类枚举值
name_goods_category贷款是为了买什么类型的东西枚举值
name_portfoliopos、cash、cards、xna枚举值
NAME_PRODUCT_TYPEx-sell、walk-in、xna枚举值
channel_type获客渠道,country wide、contact center、stone、AP+(cash loan)枚举值
sellerplace_area销售区域的面积数值
name_seller_industry卖家(应该是客户要买商品的卖家)的行业,消费电子、衣服、工业等枚举值
cnt_payment之前贷款分为多少期还款数值
name_yield_group贷款利息,small、medium、high枚举值
product_combination产品组合、 PRODUCT_COMBINATION、Cash X-Sell: low、Cash、POS household with interest枚举值
days_first_drawing相对于当前申请日期,上一次贷款的首次发放时间数值
days_first_due相对于当前申请日期,上一次贷款的首次逾期时间数值
days_last_due最近一次逾期数值
days_last_due_1st_version和days_last_due的区别?没搞懂数值
nflag_insured_on_approval之前的申请有没有要求保险数值

好多字段里都有XNA这个枚举值,它是有什么特殊含义吗?

1.5 pos_cash_balance

共计1000万条数据(主键是SK_ID_PREV和月份),对应93万SK_ID_PREV,163万前贷款申请中57%有pos机流水记录。

特征类别特征名特征含义特征类型
months_balance距今的月份枚举值
cnt_installment贷款期数数值
cnt_installment_future贷款剩余期数数值
name_contract_status合同状态,Active、Signed、Complete枚举值
sk_dpd当月逾期了多少天数值
sk_dpd_def忽略金额比较低的贷款,逾期了多少天数值

1.6 credit_card_balance

这个表是信用卡账单表,合计384万条数据(主键是MONTHS_BALANCE和SK_ID_PREV)。

1.7 instalments_payments

分期付款表共计1360万条数据(主键是SK_ID_PREV、分期的第几期、分期版本),对应99万SK_ID_PREV,占全部163万前贷款申请的60%。

特征类别特征名特征含义特征类型
name_instalment_version分期的版本数(0是信用卡),版本变化贷款还款日历发生了变化枚举值
name_instalment_number现在是第多少期分期数值
days_instalment相对于当前申请日期,之前的贷款应该在什么时间支付数值
days_entry_payment相对于当前申请日期,之前贷款的实际支付时间数值
amt_instalment贷款分期的约定付款金额数值
amt_payment分期的实际付款金额数值
  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值