《中国人工智能学会通讯》——12.48 混合型数据聚类算法

最新推荐文章于 2024-09-15 17:22:56 发布

weixin_34067102

最新推荐文章于 2024-09-15 17:22:56 发布

阅读量218

点赞数

文章标签：人工智能

原文链接：https://yq.aliyun.com/articles/219526

版权

12.48 混合型数据聚类算法

混合型数据在本文是指分类型数据和数值型数据并存的一类数据，由于两类数据描述的差异性，使得混合型数据聚类算法中类个数的确定变得越来越困难。针对分类型数据，Chen et al [36] 利用熵的性质提出了一个针对分类型数据确定聚类个数的层次聚类方法。该方法根据增量熵的变化来指导凝聚层次聚类过程，根据每层对应划分的期望熵的二次导数随类个数的变化曲线来估计候选的最佳聚类个数。Yan et al [37] 提出了一个专门针对事务数据的聚类个数确定方法。该方法给出了基于事务数据覆盖密度的类间 modes 的不相似度定义，提出了一种凝聚类型的层次聚类算法，通过比较分析类间不相似度指标（Merging Dissimilarity Index）来确定候选的最佳聚类个数。针对数值型数据，Leung et al [38]从人类对于结构感知方式的重要性这一观点出发，提出了一种基于初级视觉系统尺度空间理论的聚类个数确定算法。该方法用尺度空间理论进行描述，尺度大小的不同对应着不同的聚类结构，根据每一聚类结果的存活区间的大小来确定聚类个数。

Sunet al [39] 基于模糊 k-means 算法提出了一个聚类个数自动确定方法。该方法是在给定的数据集上，通过使用不同的参数（聚类个数）来运行模糊 k-means聚类算法对数据集进行不同的划分并计算每次划分的聚类有效性指标，最后通过比较分析各个指标的大小来确定最佳的聚类数。Wang et al [40] 提出了一个近似无参数的自动估计聚类个数的方法。该方法首先通过输入的不相似度矩阵生成一幅VAT （VisualAssessment of Cluster Tendency）图像；然后对该图像进行图像分割得到二值灰度图像；进而把二值图像投影到主对角线上并进行平滑处理；最后计算一阶导数，通过观察变化曲线的顶点和波谷来确定类个数。混合型数据由于同时具有数值型属性和分类型属性，聚类个数的确定变得更为困难。Liang et al [41]利用信息熵能很好地反应类的抱团性和分离性这一优点，对以上问题进行了研究，分别利用 Renyi 熵和互补熵来刻画数值型数据和分类型数据的类内、类间信息，并将其融合，在此基础上定义了一种混合型数据的相异性度量，用于识别算法在每一次迭代过程中的最差类。通过扩展分类效用函数，给出了一种混合型数据聚类结果的有效性评价指标，进而设计了一个混合型数据聚类个数确定算法。实验结果表明，提出的算法不仅能够准确地找到聚类个数，而且同时能够获得较优的聚类结果。为了解决混合型数据聚类中不同特征对聚类结果的影响，更加准确客观地度量对象与类之间的差异性，赵兴旺等[42] 定义了一种针对混合型数据的扩展欧氏距离，基于类内信息熵和类间信息熵给出了聚类过程中不同特征重要性的度量，提出了一种混合型数据属性加权聚类算法。