一.聚类方法类别
1.划分(分裂)方法
- K-平均值(K-MEANS算法)
- K-中心点(K-MEDOIDS算法)
- 基于选择(CLARANS算法)
2.层次分析方法
- 平衡迭代规划和聚类(BIRCH算法)
- 点聚类(CURE算法)
- 动态模型(CHAMELEON算法)
3.基于密度的方法
基于密度连接区域
- 密度分布
- 对象排序识别
4. 基于网络的方法
- 统计信息网络(STING算法)
- 聚类高维空间(CLIOUE算法)
- 小波变化(WAVE-CLUSTER)
二.模块
1.聚类(cluster)
函数名 | 参数 | 适用样本数目 | 适用聚类数目 | 距离度量 |
---|---|---|---|---|
KMeans | 簇数 | 大 | 中 | 点之间的度量 |
Spectral Clustering | 簇数 | 中 | 小 | 图距离 |
Ward hierarchical clustering | 簇数 | 大 | 大 | 点之间的度量 |
AgglomerativeClustering | 簇数,链接联系,距离 | 大 | 大 | 成对的点线图的度量 |
DBSCAN | 半径大小,最低成员数目 | 大 | 中 | 最近点的距离 |
Birch | 分子因子,阀值,可选全局集群 | 大 | 大 | 点之间的欧式距离 |
2.估计器(estimator)
方法 | 说明 |
---|---|
fit | 1.用于训练算法, 接收有监督训练集,标签参数+无监督学习的数据 |
predict | 1.用于有监督学习的测试集标签 2.划分传入数据的类别 |
3.聚类评价指标
- 研究分类相关性
方法名称 | 真实性 | 最佳值 | sklearn函数 |
---|---|---|---|
ARI评估法(兰德系数) | 需要 | 1.0 | adjusted_rand_score |
AMI评估法(互信息) | 需要 | 1.0 | adjusted_mutual_info_score |
V-measur评分 | 需要 | 1.0 | completeness_score |
FMI评价法 | 需要 | 1.0 | fowlkes_mallows_score |
轮廓系数评价法 | 不需要 | 畸变程度最大 | silhouette_score |
指数评价法 | 不需要 | 相较最大 | calinski_harabasz_score |