任务:将数据集中的样本划分成若干个通常不相交的子集。
性能度量:类内相似度高,类间相似度低。两大类:1.有参考标签,外部指标;2.无参照,内部指标。
距离计算:非负性,同一性(与自身距离为0),对称性,直递性(三角不等式)。包括欧式距离,曼哈顿距离等等。
(1) K均值聚类步骤:1.随机选择k个样本作为初始均值向量;2.计算样本到各均值向量的距离,把它划到距离最小的簇;3.计算新的均值向量;4.迭代,直至均值向量未更新或到达最大次数。缺点:需要输入k,算法速度依赖于初始化的好坏,不能处理非球形簇。
(2) 密度聚类步骤:DBSCAN,找到几个由密度可达关系导出的最大的密度相连样本集