数据建模流程/步骤

1.确定业务目标

2.数据获取

  自有数据、爬虫数据

3.数据检验

  唯一性(去重)、样本完整性(样本分布不能偏离总体分布太远)、取值范围、异常值(极值、错误的数值等)

4.变量选择(数据清洗)

  【转载自http://www.jianshu.com/p/6a3146808a56】选择具有预测能力的自变量。在做自变量的选择时,需要做数据的探索(这要依靠个人经验和统计学的基础知识),如查看各个自变量的统计特征和分布、自变量之间或自变量和因变量之间是否存在相关性、极端值异常值缺失值的识别和处理。对于数值型变量而言,可以剔除某些标准差或变异系数较小的变量,对于分类型变量则可以剔除某个值占比在90%以上的自变量。自变量之间的相关性用皮尔森相关系数衡量就可以,而分类型自变量则可以通过概率比、基尼方差、信息值等来衡量。

5.变量分组

   分组的基本原则:组内差异小,组间差异大;分组数量不宜过大或过小,建议数值型变量分为4~8组。

  分类变量分组:降维

  连续变量分组:登高/等距

6.分组变量WOE转化

  WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异/当前这个组中响应的客户和未响应客户的比值,和所有样本中这个比值的差异。WOE越大,这种差异越大,这个分组里的样本响应的可能性就越大,WOE越小,差异越小,这个分组里的样本响应的可能性就越小。

7.数据输入模型算法

  根据具体的业务场景、数据分布特征等因素选择模型

8.模型评估

ROC曲线、洛伦兹曲线、F值、PSI、KS

KS值所代表的仅仅是模型的分隔能力,并不代表分隔的样本是准确的。

转载于:https://my.oschina.net/u/3575262/blog/1585740

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值