一、聚类
1.1聚类任务
聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)。
1.2 性能度量
聚类性能度量亦称聚类“有效性指标”(validity index)。与监督学习中的性能度量作用类似,对于聚类结果,我们需要通过某种性能度量来评估其好坏;另一方面,若明确了最终要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。
1.2.1 常用的外部指标:
1.2.2 常用内部指标
1.3 距离计算
二、K-Means算法
2.1 定义
K-Means算法可以发现k个不同的簇, 且每个簇的中心采用簇中所含值的均值计算而成。