1.确定业务目标
2.数据获取
自有数据、爬虫数据
3.数据检验
唯一性(去重)、样本完整性(样本分布不能偏离总体分布太远)、取值范围、异常值(极值、错误的数值等)
4.变量选择(数据清洗)
【转载自http://www.jianshu.com/p/6a3146808a56】选择具有预测能力的自变量。在做自变量的选择时,需要做数据的探索(这要依靠个人经验和统计学的基础知识),如查看各个自变量的统计特征和分布、自变量之间或自变量和因变量之间是否存在相关性、极端值异常值缺失值的识别和处理。对于数值型变量而言,可以剔除某些标准差或变异系数较小的变量,对于分类型变量则可以剔除某个值占比在90%以上的自变量。自变量之间的相关性用皮尔森相关系数衡量就可以,而分类型自变量则可以通过概率比、基尼方差、信息值等来衡量。
5.变量分组
分组的基本原则:组内差异小,组间差异大;分组数量不宜过大或过小,建议数值型变量分为4~8组。
分类变量分组:降维
连续变量分组:登高/等距
6.分组变量WOE转化
WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异/当前这个组中响应的客户和未响应客户的比值,和所有样本中这个比值的差异。WOE越大,这种差异越大,这个分组里的样本响应的可能性就越大,WOE越小,差异越小,这个分组里的样本响应的可能性就越小。
7.数据输入模型算法
根据具体的业务场景、数据分布特征等因素选择模型
8.模型评估
ROC曲线、洛伦兹曲线、F值、PSI、KS
KS值所代表的仅仅是模型的分隔能力,并不代表分隔的样本是准确的。
6863

被折叠的 条评论
为什么被折叠?



