机器学习之聚类
聚类
1、聚类方法有哪些(常用)
划分方法:
描述:分裂法构造K个分组。
K-means算法
层次方法:
描述:对给定的数据集进行层次似的分解,直到某种条件满足为止。
DIANA、BIRCH、Chameleon
基于密度的方法:
描述:基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。
DBSCAN算法、OPTICS算法
模糊聚类:
EM算法
基于模型的方法:
描述:基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。
2、聚类方法的评价指标
Silhouette Coefficient(轮廓系数)
- 对象与其自身簇(内聚力)相比与其他簇(分离)相似程度的度量。
- 值从-1到+1,其中高值表示对象与其自己的簇很好地匹配并且与相邻