数据的预处理工作可以有效处理缺失值与异常值,从而增强模型的稳定性;
而特征构建工作则可以将信息从字段中加以提炼,形成有业务含义的优异特征
评分卡使用策略:
1.进件量较大,规则无法满足更细的切分需要;
2.有许多无法判断风险类别的灰色客群
使用场景:人工分流、客群豁免
申请评分卡:用在贷前审核环节,评估放贷后是否会违约的模型。常用特征:个人信息、央行征信信息、申请行为信息、其他辅助信息。
特征构造:将分散在不同字段中的信息加以组合,从中提炼出有价值的、可用的信息进而进行评分卡模型的开发。
部分常用的特征构造的方法有:求和、比例、频率、平均
求和:例如过去一段时间内的每月网购金额的总和
比例:例如申请贷款的月还款本息不月收入的占比
频率:例如过去一段时间内的境外消费次数
平均:例如过去一段时间内平均每次信用卡取现额度
好的特征的优势:
数据的质量检验:
1.数据的集中度
2.数据缺失:
1)舍弃该字段戒该条记彔:缺失占比太高
2)补缺:缺失占比不高,可用均值法、众数法、回归法等
3)作为特殊值:将缺失看成一种特殊值
3.异常值:
不缺失值类似,异常值在一般的数据分析场景中也会对模型产生一定的干扰,需要对其做处理。异常
值的判断通常有聚类法、分位点法等等,处理方法有删除法、替换法。
𝑥 > 𝑄3 + 3 (𝑄3 − 𝑄1) 𝑜𝑟 𝑥 < 𝑄1 − 3 (𝑄3 − 𝑄1)
𝑄3,𝑄1分别是样本的75%与25%分位点
4.数据含义的一致性
四分位数
数据的预处理与特征构建(申请评分卡模型)
最新推荐文章于 2022-02-14 13:42:57 发布