车辆贷款违约预测挑战赛

最新推荐文章于 2024-06-27 12:32:52 发布

a useful man

最新推荐文章于 2024-06-27 12:32:52 发布

阅读量2.9k

点赞数 1

分类专栏： python机器学习文章标签：数据挖掘 python 人工智能

本文链接：https://blog.csdn.net/sinat_23971513/article/details/122906616

版权

本文介绍了参加2021科大讯飞的车辆贷款违约预测挑战赛的解决方案，包括特征工程、模型训练和结果融合。通过构造新特征、数据处理和使用LightGBM、XGBoost模型，结合概率阈值选择，实现违约预测。最终，通过模型融合提高预测精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2021科大讯飞-车辆贷款违约预测挑战赛--方案

简介

车贷违约预测问题，目的是建立风险识别模型来预测可能违约的借款人。预测结果为借款人是否可能违约，属于二分类问题。

偏数据挖掘的比赛，关键点是如何基于对数据的理解抽象归纳出有用的特征。

站在大佬的视角，尝试学习总结，站在巨人的肩膀上，也许看得会更远一些。

直接进入主题，开始学习套路，芜湖~

特征工程

1、常用库、数据导入

import pandas as pd
import numpy as np
import lightgbm as lgb
import xgboost as xgb
from sklearn.metrics import roc_auc_score, auc, roc_curve, accuracy_score, f1_score
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import StandardScaler, QuantileTransformer, KBinsDiscretizer, LabelEncoder, MinMaxScaler, PowerTransformer

from tqdm import tqdm
import pickle
import logging
logging.basicConfig(format=’%(asctime)s : %(levelname)s : %(message)s’, level=logging.INFO)
import os

后半部分用了一些工具：

tqdm：一个优雅的进度条显示，方便观测跑数进度以及速度；
pickle：将对象以文件的形式存放在磁盘上，几乎所有的数据类型都可以用pickle来序列化，一般先dump，后load，类似于写出、导入的意思；作用是，一次结果多次复用，避免重复做功，hhh，比如说A列数据处理得花2h，每次修改过后需重跑其他列数据，但无须修改A列数据，就可以用pickle解决这个问题，快速调取之前的结果；
logging：控制台输出日志，方便查看运行状态；

logging.info(‘data loading…’)

train = pd.read_csv(’…/xfdata/车辆贷款违约预测数据集/train.csv’)

test = pd.read_csv(’…/xfdata/车辆贷款违约预测数据集/test.csv’)

2、特征工程

2.1 构造特征

针对训练集、测试集：

根据业务理解，计算新的特征；
对某些比例特征进行等宽分箱（cut），对某些数值特征进行等频分箱（qcut），还有一些数值特征进行自定义分箱，划分bin的范围；

def gen_new_feats(train, test):

‘’‘生成新特征：如年利率/分箱等特征’’’

# Step 1: 合并训练集和测试集

data = pd.concat([train, test])
# Step 2: 具体特征工程
# 计算二级账户的年利率
data['sub_Rate'] = (data['sub_account_monthly_payment'] * data['sub_account_tenure'] - data[
    'sub_account_sanction_loan']) / data['sub_account_sanction_loan']

# 计算主账户的年利率
data['main_Rate'] = (data['main_account_monthly_payment'] * data['main_account_tenure'] - data[
    'main_account_sanction_loan']) / data['main_account_sanction_loan']

# 对部分特征进行分箱操作
# 等宽分箱
loan_to_asset_ratio_labels = [i for i in range(10)]
data['loan_to_asset_ratio_bin'] = pd.cut(data["loan_to_asset_ratio"], 10, labels=loan_to_asset_ratio_labels)
# 等频分箱
data['asset_cost_bin'] = pd.qcut(data['asset_cost'], 10, labels=loan_to_asset_ratio_labels)
# 自定义分箱
amount_cols = [
               'total_monthly_payment',
               'main_account_sanction_loan',
               'main_account_disbursed_loan',
               'sub_account_sanction_loan',
               'sub_account_disbursed_loan',
               'main_account_monthly_payment',
               'sub_account_monthly_payment',
               'total_sanction_loan'
            ]
amount_labels = [i for i in range(10)]
for col in amount_cols:
    total_monthly_payment_bin = [-1, 5000, 10000, 30000, 50000, 100000, 300000, 500000, 1000000, 3000000, data[col].max()]
    data[col + '_bin'] = pd.cut(data[col], total_monthly_payment_bin, labels=amount_labels).astype(int)

# Step 3: 返回包含新特征的训练集 &amp; 测试集
return data[data['loan_default'].notnull()], data[data['loan_default'].isnull()]</code></pre><h4>2.2 编码-Target Encoding</h4><p>Target encoding是一种结合目标值进行特征编码的方式。</p><p>在二分类中，对于特征i，target encoding在该特征取值为k时的编码值为类别k对应的目标值期望E(y|xi=xik)。</p><p><span class="img-wrap"><img class="lazy" referrerpolicy="no-referrer" data-src="/img/remote/1460000041098206" alt="20211208003221" title="20211208003221"></span></p><p>在样本集中一共有10条记录，其中3条记录中特征Trend的取值为Up，我们关注这3条记录。在k=Up时，目标值的期望为2/3 ≈ 0.66，所以将Up编码为0.66。</p><p>大佬后面主要是针对id特征进行target encoding。</p><pre><code class="python"&g