戳蓝色字关注我们哟!
在使用聚类方法的过程中,常常涉及到如何选择合适的聚类数目、如何判断聚类效果等问题,本篇文章我们就来介绍几个聚类模型的评价指标,并展示相关指标在python中的实现方法。
抽奖送书活动进行中,戳->新书推荐 抽奖送到家!
1
概述
评价指标分为外部指标和内部指标两种,外部指标指评价过程中需要借助数据真实情况进行对比分析的指标,内部指标指不需要其他数据就可进行评估的指标。下表中列出了几个常用评价指标的相关情况:
2
2
Python实现
轮廓系数(Silhouette Coefficient)
轮廓系数可以用来选择合适的聚类数目。根据折线图可直观的找到系数变化幅度最大的点,认为发生畸变幅度最大的点就是最好的聚类数目。
from sklearn.metrics import silhouette_scoredata2 = data1.sample(n=2000,random_state=123,axis=0)silhouettescore=[]for i in range(2,8):kmeans=KMeans(n_clusters=i,random_state=123).fit(data2.iloc[:,1:4])score=silhouette_score(data2.iloc[:,1:4],kmeans.labels_)silhouettescore.append(score)plt.figure(figsize=(10,6))plt.plot(range(2,8),silhouett