要点
1. 聚类任务描述
2. 性能度量
3. 聚类算法
原型聚类
• K均值算法
• 学习向量算法
密度聚类
层次聚类
一、聚类任务
• 无监督学习unsupervised learning
标记未知;揭示数据的内在性质和规律
• 应用最广的无监督学习:聚类
二、性能度量
外部指标-计数
左边图是外部参考真实划分;右边是聚类算法推测结果。把数据集结果两两配对,根据它们在两个聚类的划分结果中进行点对的计数和比较。m个点两两配对,就有总共点对数:m(m-1)/2对;点对分为四类:
第一类:在两个划分结果中都在一个类别的点对数量 a
第二类:点对在外部模型中分为同一类,在聚类模型中分在不同类 b