1. 确定建模目的
在信贷领域中建立风控模型是为了找出可能会逾期的客户,根据逾期的可能性和资金的松紧程度选择是否放贷。
在支付领域建立风控模型是为了找出可能存在非法经营的商户,保证商户没有违法经营。
2. 确定好坏样本逻辑
在信贷领域中逾期大于x期(不同公司取值不同)的客户定义为坏客户(1),从未逾期的客户定义为好客户(0)
在支付风控领域中,有赌博、欺诈、套现、伪卡等行为的商户定义为坏商户(1)(具体根据模型要防控的风险决定),未有上述风险的商户定义为好商户(0)
3. 特征工程
在风控领域一直都有这样一句话 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。通俗的讲就是衍生变量去捕获风险客户。特征工程一般分为三个部分:
1. 特征构建
2. 特征提取
3. 特征选择(IV、GBDT、随机森林、逐步回归、相关系数等)
4. 数据准备
做完特征工程后就确定了需要建模的字段,如果公司的数据较多可以按以下步骤在hive中跑取需要的数据,如果数据量不大也可以在Python中或者R中准备数据。