智慧起航,共创未来
聚类分析在医学、图像分割、生物学、电子商务、互联网等领域得到了广泛应用。在实际应用环境中,被聚类的数据通常含有数值属性和分类属性,例如医学检测报告不仅有血压、脉搏等数值属性,而且还存在性别、婚姻状况、疾病定性检验结果等分类属性。现有聚类算法大部分只能对数值属性数据聚类,不能对混合属性数据聚类,如K-means、FCM、DPC、CLUB等。为了解决混合属性数据聚类问题,学者们提出了一些混合属性数据聚类算法,如K-prototypes、EKP、IKP-MD、FKP-MD、DP-MD-FN,但在没有先验知识的情况下,这些算法难于确定聚类个数和选取合适的聚类中心。造成聚类精度不高,如何准确地确定聚类中心和聚类个数成为混合属性数据聚类领域亟待解决的问题。
邱保志, 张瑞霖, 李向丽. 基于残差分析的混合属性数据聚类算法. 自动化学报, 2020, 46(7): 1420-1432
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c180030
以K-means为代表的基于划分的聚类算法以选取的初始聚类中心为基础,依据相似性将其余对象分配给相应的中心形成聚类,通过反复计算新的聚类中心和再分配,直至目标函数收敛为止,形成最终聚类。这种聚类中心计算方式和分配机制决定了这一类算法不能有效地处理非球形簇。DPC算