1、数据介绍
赛题数据由训练集和测试集组成,总数据量超过25w,包含52个特征字段。为了保证比赛的公平性,将会从中抽取15万条作为训练集,3万条作为测试集,同时会对部分字段信息进行脱敏。数据集中每个特征的含义,进入链接查看https://challenge.xfyun.cn/topic/info?type=car-loan
2、数据预处理
2.1、读取数据
2.2、去除无效特征
2.3、划分测试集和训练集
3、建模
3.1、逻辑回归
3.2、xgboost模型
赛题数据由训练集和测试集组成,总数据量超过25w,包含52个特征字段。为了保证比赛的公平性,将会从中抽取15万条作为训练集,3万条作为测试集,同时会对部分字段信息进行脱敏。数据集中每个特征的含义,进入链接查看https://challenge.xfyun.cn/topic/info?type=car-loan