融360天机智能金融算法挑战赛-拒绝推断-CSDN博客

2016年1月，机构A通过自建风控模型开始放贷，初期获得了良好的收益。随着时间的推移，机构A发现在样本通过率5%不变的前提下，机构逾期率由2016年1月的5%逐步升至2017年7月的15%，大量坏账导致机构A由盈利陷入亏损境地。公司模型人员仔细检查模型，发现其在训练集和测试集上都表现很好，并没有任何异常，百思不得其解。在金融信贷场景中，放款机构会通过模型评分筛选用户，评分较好的用户可以获得放款，评分较差的用户直接被拒绝，机构只能获得放款用户样本的好坏标签，对于大量拒绝用户的还款情况无法获得。随着时间的推移，机构手中的训练样本都是“评分较好”的通过用户，而没有“评分较差”的拒绝用户，由此训练的模型在“评分较好”用户中表现越来越好，在“评分较差”用户中却无法得到任何验证。但是，金融风控模型真实面对的客群却包括了“评分较差”的用户，模型在“评分较差”用户中无法得到验证，导致训练的模型越来越偏离实际情况，甚至通过了大量应该被拒绝的坏用户，致使大量坏账出现，直接带来巨大经济损失。因此，在只有最优质的放款用户好坏标签的情况下，如何保证建模对所有放款用户和拒绝用户都有良好的排序能力，是金融风控模型需要解决的重要问题。解决该问题可以是传统的拒绝推断技术，也可以尝试其他机器学习技术，参赛者可自行选择。

1.具体内容

训练样本：从2018.1.1到2018.5.1放款用户样本，信用评分top30%的样本给出每个样本是否逾期，后70%样本只有3000个给是否逾期。(约10万样本) 验证样本：从2018.1.1到2018.5.1放款用户样本，验证集不提供样本是否逾期，参赛选手自行完成是否逾期预测后，可以提交至比赛平台评估结果。（约2万样本）测试样本：与验证样本来源相同且同分布。测试集不提供样本是否逾期，参赛选手只能在比赛最后的评比阶段将预测结果提交至比赛平台评估，且只能提交一次。（约2万样本）

2.我们需要你们完成

对用户各类信用相关数据进行分析处理，挖掘数据价值。根据验证样本和测试样本的样本特点，从训练样本中选取合适的训练集，完成建模，保证模型在验证样本和测试样本上的效果。

题目数据，具体如下：

1.train.txt # 训练集。id：样本编号1-100000，loan_dt：放款日期，label：逾期标签（1为逾期，0为非逾期，空字符串为未给出标签），tag：标识通过和拒绝用户（0为模型分数前30%-假设为通过，1为模型分数后70%-假设为拒绝），f1~f6745为特征。原文件过大，已拆分成多个小文件。

id loan_dt label tag f1 f2 f3 ... f6745

2.valid.txt # 验证集。

id loan_dt f1 f2 f3 ... f6745

3.test.txt # 测试集（暂未开放）。

4.验证集样本id文件为valid_id.txt, 测试集样本id文件为test_id.txt（暂未开放）。所有文件都建议用vim、notepad,等编辑器打开，用txt打开可能会由于文件过大而出问题。

5.上传的预测文件格式如下
(id与提交集合id相同顺序，逗号分隔)
例子：
id,prob
100001,0.7
100002,0.65
100003,0.78
...