聚类模型以及分群质量评估

本文探讨了聚类分析的重要性和常用模型,包括K-Means、层次聚类和最大期望EM算法。聚类距离的计算方法和数据标准化过程也被提及。此外,文章讨论了如何评价聚类结果,如轮廓系数、兰德指数等指标,并提到了DBSCAN作为解决异常值和非凸样本集的聚类方法。最后,介绍了Python中的一些聚类质量评估工具。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

聚类分析:用于客户细分极为重要。三类常见的聚类模型,K-Means,层次聚类,最大期望EM算法,其他的还有密度聚类
如何评价聚类结果好坏,一些常用的指标又有哪些
聚类分析的目的:让类群内观测的距离最近,同时不同全体之间的距离最大

1.聚类分析的距离问题:样本聚类距离:欧式距离,绝对值距离,明式距离,马氏距离。概率分布的距离衡量:k_l代表P,Q概率分布差的期望

在这里插入图片描述在这里插入图片描述
聚类分析一般要进行标准化,因为聚类数据收到量纲的影响
标准化 x-min(x) / max(x)-min(x) 最小最大规范化 也叫离差标准化,是对原始数据的线性变换,将数据映射到[0,1]之间,与功效系数法相同
正态标准差标准化、零均值规范化等方法,经过处理的数据均值为0,标准差为1。公式为:
x*=(x-均值)/标准差
因为均值受离群值影响较大,也可以将均值替换成变量的中位数。

2.群体聚类距离:

### 聚类模型评估指标 对于聚类模型而言,选择恰当的评估指标至关重要。由于聚类属于无监督学习范畴,在缺乏真实标签的情况下,评估其性能变得尤为复杂。然而,仍然存在多种有效的内部和外部度量标准来衡量聚类效果。 #### 内部度量(Internal Metrics) 这类度量不需要依赖于预先定义的真实类别标签,而是通过考察簇内的紧密程度以及簇间的分离情况来进行评判: - **轮廓系数(Silhouette Coefficient)**:该值介于[-1, 1]之间,表示样本与其所在簇其他成员的距离相对于最近邻簇成员距离的比例关系。较高的平均轮廓分数意味着更好的聚类结果[^3]。 ```python from sklearn.metrics import silhouette_score score = silhouette_score(X, labels) print(f'Silhouette Score: {score}') ``` - **Calinski-Harabasz指数(Calinski-Harabasz Index)**:也被称为方差比率准则(Variance Ratio Criterion),计算公式为\( \frac{BSS}{WSS} * (\frac{n-k}{k-1})\) ,其中n代表总样本数,k是簇的数量,BSS指组间平方和,WSS则为组内平方和。较大的CH得分表明较好的划分质量。 ```python from sklearn.metrics import calinski_harabasz_score ch_index = calinski_harabasz_score(X, labels) print(f'Calinski Harabasz Index: {ch_index}') ``` #### 外部度量(External Metrics) 如果能够获取到真实的分类信息,则可以采用如下几种方式对比实际分布与预测结果的一致性: - **调整兰德指数(Adjusted Rand Index,ARI)**:取值范围同样位于[-1, 1]区间内,正值越大越好,0通常对应随机分配的情况。此方法适用于比较两个不同的分群方案之间的相似度。 ```python from sklearn.metrics.cluster import adjusted_rand_score ari = adjusted_rand_score(true_labels, predicted_labels) print(f'Adjusted Rand Index: {ari}') ``` - **互信息(Mutual Information,MI)**及其变体如标准化互信息(Normalized Mutual Information,NMI)可用于量化两套标签体系共享的信息量大小。高NMI数值暗示着较强的关联性。 ```python from sklearn.metrics.cluster import normalized_mutual_info_score nmi = normalized_mutual_info_score(true_labels, predicted_labels) print(f'Normalized Mutual Info Score: {nmi}') ``` 除了上述提到的技术外,还有许多其他的评价手段可供选用,具体取决于应用场景和个人偏好等因素的影响。值得注意的是,尽管这些工具可以帮助判断算法的有效性和合理性,但在实践中往往还需要结合领域知识和其他辅助措施共同完成最终的质量检验工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值