- 学习资料
IBM SPSS Modeler 18.0 Applications 第3章
- 应用场景
金融机构根据以往贷款申请人的信息预测申请人具有较低风险还是较高风险
- 数据源描述
数据源名称tree_credit.sav
- 应用模型
决策树模型中的CHAID(卡方自动交互效应检测)模型
- 分析思路
采用CHAID模型,通过卡方统计计算所有输入字段对目标字段的影响显著性((1)一般计算信息增益,在决策树算法的学习过程中,信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。(2)还有计算基尼系数,即根据每个特征进行分类,分类错误率越小,说明该特征越重要),然后由上至下作为决策树的最佳分割点,从而挖掘信用评级为良/不良的人的特征,日后采用这些特征预测申请人发生拖欠贷款的可能性。
- 设计步骤
1、选取源节点“Statistics文件”,读取外部数据源;
Variable names选择Read labels as names
Values选择Read labels as data
(这里由于数据源里的字段和值已经设置有标签,如“持有的信用卡数:1 = 少于五张,2 = 五张或更多”,所以读取标签作为字段和值)
2、选择“类型”字段选项,与源节点连接起来
把Credit_rating的Role设置为Target(输出/目标),
其它字段的Role设置为Input(输入/预测变量),
所有字段的Measurement(数据类型)保持不变,
接着点击Read Valuse读取值。
3、选择CHAID模型节点,与字段选项节点连接起来
(1)由于上一步经过“类型”字段选项的设置,CHAID的Fields选项卡将Use predefined roles使用预定义角色,即类型节点中指定的Input和Target。(也可以选择Use custom field assignments,在当前模型节点选项卡上指定Input、Targets、Weight,这里不再重新选择)
(2)点击Build Options选项卡,从左侧的导航器窗格选择Objective选项,保持默认选项Build new model构建新模型(如果是训练已有模型,选择Continue training existing model),保持默认选项Build a single tree设置决策树为单个标准决策树型,mode保持默认选项Generate model即不包含任何增强,(Launch interactive session 启动允许对模型进行微调的交互建模会话,训练CHAID树时,会开启交互式会话窗口,在交互会话中可以控制树生长和对树剪枝,避免过拟合。)
(3)从左侧的导航器窗格选择Stopping Rules选项设置停止决策树生长的规则(剪枝),
选择Use absolute value使用绝对值选项,父分支中的最小记录数设置为400,子分支中的最小记录数设置为200;(Use percentage 使用百分比,将通过设置父分支和子分支最小记录数占比来停止决策树生长)