机器学习(聚类)
参考资料:清华大学学堂在线,统计学习方法
1.聚类任务描述
**无监督的学习任务:
- 标记未知
- 揭示数据的内在性质和规律**
试图将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个簇
聚类的形式化描述:
• 样本集:
• 每个样本:
• 划分为k个不相交的簇:
• 簇标记:
• 聚类的结果可用包含m个元素的簇标记向量
表示
• 聚类的重要性 :其它学习任务的前驱过程;
2.性能度量
聚类结果指标:
- ****“簇内相似度”高
- “簇间相似度”低****
性能度量方法:
“1.外部指标”:计数法
同样的数据集D聚类的结果会不同
1. 左边的图为参考的外部模型给出的真实划分
2. 右图为通过聚类算法推测的结果