聚类结果评价指标及python3代码实现
本博客为博主原创,如需转载,请附上本文链接http://blog.csdn.net/JasonLeeeeeeeeee/article/details/79027518,谢谢
在机器学习、数据挖掘领域中,聚类算法有很多中,比方说K-Means、DBSCAN等等,这些也都是入门级的简单算法。聚类算法属于无监督学习,即训练样本的标记信息是未知的,目标是通过对这些无标记数据根据内在的性质及规律区分开不同的类别,或者说是将相似的数据归为一类,这为下一步的数据分析提供基础。其中K-Means是采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大;DBSCAN是基于密度的聚类,该算法假设聚类结构能通过样本分布的紧密程度确定,是从密度的角度来考察样本之间的可链接性,并基于可连接的样本来扩展簇类来达到最终的聚类效果。
然而,使用这些聚类算法后,对聚类结果的优劣程度还是需要进行评价。本博客将从以下两个评价方法展开讨论:
- 欧式距离
- 轮廓系数
聚类结果评价指标还有互信息、兰德指数等,由于博主应用的是欧式距离和轮廓系数,所以本博客会对这两个评价指标做详细的解释及python3实现代码,望谅解。
欧式距离
欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 —— [ 百度百科 ]
已知A,B两点,求A,B两点间的距离,公式如下:
K-Means算法中的所说的距离就是欧式距离,同样博主认为可以将每标签类中成员至其质心的距离总和可以作为loss成本值来评价聚类结果的优劣。
python代码如下:
from sklearn.cluster import KMeans
import numpy as np
import re
file = open("输入数据文件", 'r', encoding