1. 数据平衡 在数据挖掘过程中,经常会遇到数据不平衡的问题,由于模型总是力求分类尽可能精确,因此面对不平衡数据时分类器总是倾向于大类别的样本。 平衡节点 在平衡节点中,提供了两种处理方式: (1)欠采样:对于总体数据中的多数类别,通过对其进行随机抽样,减少多数类别的样本数量,以此来降低数据集的不平衡程度。 (2)过采样:对于总体数据中的少数类别,通过对其进行样本复制,增加额外的样本量,以此来降低数据集的不平衡程度。 案例:Demo文件下的”bankloan.sav“数据文件。(违约风险分析) 数据展示: 1.1 查看客户流失情况分布