一、聚类定义
聚类定义:
聚类是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小;
一种无监督学习
相似度计算方法总结:
余弦相似度与Pearson相似系数:
相关系数即将x、y坐标向量各自平移到原点后的夹角余弦;也可以说明文档间求距离使用夹角余弦——物理量表征了文档去均值化后的随机向量间相关系数;
聚类的基本思想:
二、k-Means算法
k-Means算法定义:
k-means分类数据过程样例图:
k-Means公式化解释:
k-Means聚类方法总结:
k-Means对初值选取敏感;可以作为其他聚类方法基础算法,如谱聚类;
k-Means优点:
解决聚类问题的经典算法,简单、快速;
对处理大数据集,该算法保持可伸缩性和高效率;
当簇近似为高斯分布时,效果较好;
k-Means缺点:
在簇的平均值可被定义情况下才能使用,可能不适用于某些应用;
必须事先给出K(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。
不适合于发现非凸形状的簇或者大小差别很大的簇;
对噪声和孤立点数据敏感;
三、聚类衡量指标
Canopy算法:
衡量指标:
ARI定义:
AMI定义:
轮廓系数: