根据抽检不合格率数据进行风险等级划分,除专家经验划分外,还可以采用K-means聚类来自动划分。本文利用SPSS实现了连续数值的自动聚类分箱。
K-means聚类
首先选用K-均值聚类将不合格率划分为5个中心。
选中“保存聚类成员”,这样才能在数据集中显示划分的类别
继续后,就生成了5个聚类中心,并且数据集中增加了两列:分类及离中心的距离
现在只是有了聚类中心,是一个点,需要做到等级划分,需要的是数值区间。分箱可以按照条件将数据划分为几组,因此考虑用分箱结合聚类结果实现风险等级划分。
最优分箱
转换->最优分箱
要分箱的变量即“不合格率”,根据下列各项优化分箱选中聚类出来的等级编号
由此就获得了5个等级以及每个等级的上下限。