再次从零开始吧
一、数据
赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
二、标准
提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为AUC评估模型效果(越大越好)。
三、结果
提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。
个人理解
该问题为标准的分类问题,对于数据来说,是标准的4:1的训练集测试集划分,就以往经验来看,使用logistic回归应该能得到一个baseline,之后可以用过拟合的方式看一下具体精度,最后再进行调参。
赛题地址: link.