企业风险预测开发复盘总结
一、背景介绍
在企业信用领域,每个企业每天都在发生着改变,这些改变有可能使得企业越来越好,也有可能使得企业面临各种风险。面对企业的百万级运营数据,从中分析出企业的风险信息对企业运营的决策和投资者都是比较好的参考。
为了给客户提供一个比较精确企业风险信息,我们可以根据企业的历史数据和后面的表现情况,结合数据挖掘的理论知识,采用树模型分类算法模型来预测企业发生风险概率。
二、简介
结合实际,我们主要围绕两方面工作,第一是数据准备工作,主要是因子体系的梳理和加工,第二是实现评分卡模型。
三、需求说明
3.1数据方面
企业口径:正常企业和发生风险的企业
企业数据:参考企查查,主要有企业的工商、法务、舆情、关联企业、企业法人、企业股东、企业年报等方面数据。
3.2 环境方面
1.数据库
2.Python3.7
3.3 时间方面
初版定于x月完成。
四、实施方案
4.1梳理因子体系
时间窗口,先进行数据分析,初步想法是按照关键业务数据为基础分析,再根据分析结果确定时间窗口。
因子体系,在已有的企业数据基础上,整理和添加与企风险有关的因子。
4.2 数据加工
根据因子体系加工数据,主要是在数据库里面加工,确定数据表的规范和具体内容。
4.3 实现数据挖掘
主要有读取数据、数据处理、特征选择、训练模型、测试模型及评估调整模型几个重要步骤,下面简单介绍下这些步骤里面的一些重要细节。
4.3.1读取数据
通过Python连接数据库,直接把加工好的模型数据读进Python中,同时注意数据类型和格式是否正确。
4.3.2数据处理
区分数据类型,将离散型和连续型数据分开。
缺失值和异常值处理,以替换为主,删除为辅。
离散化主要以有监督的离散化方法为主。
4.3.3特征选择
计算变量的woe值和iv值,根据iv值选择特征。
数据转换,用woe值替换掉离散化后的数据。
计算相关性和多重共线性,并根据计算结果筛选出入模的特征。
4.3.4 训练模型
训练模型,将最后选择特征进入算法训练。
4.3.5 测试模型
测试模型,把测试样本根据训练参数预测结果后和实际情况进行对比。
4.3.6 评估和调整模型
评估模型,根据训练的算法参数和测试的结果,挑选和计算出模型的F1指标。
调整模型,视评估效果决定是否调整模型。