机器学习(聚类)

本文详细介绍了机器学习中的聚类任务,包括无监督学习的任务描述和聚类的正式定义。讨论了性能度量,如外部指标的计数法和内部指标的距离法,并详细阐述了K均值、学习向量、密度聚类和层次聚类等算法。聚类算法的性能评估通过簇内相似度和簇间相似度来衡量,距离计算方法则涉及有序、无序和混合属性。此外,文章还提到了层次聚类中的AGNES方法及其距离计算策略。
摘要由CSDN通过智能技术生成

机器学习(聚类)

参考资料:清华大学学堂在线,统计学习方法

1.聚类任务描述

**无监督的学习任务:

  • 标记未知
  • 揭示数据的内在性质和规律**

试图将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个簇

聚类的形式化描述:

• 样本集:
在这里插入图片描述
• 每个样本:
在这里插入图片描述
• 划分为k个不相交的簇:
在这里插入图片描述
• 簇标记:
在这里插入图片描述
• 聚类的结果可用包含m个元素的簇标记向量
在这里插入图片描述 表示
• 聚类的重要性 :其它学习任务的前驱过程;

2.性能度量

聚类结果指标:

  • ****“簇内相似度”高
  • “簇间相似度”低****

性能度量方法:

“1.外部指标”:计数法

在这里插入图片描述
同样的数据集D聚类的结果会不同
1. 左边的图为参考的外部模型给出的真实划分
2. 右图为通过聚类算法推测的结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值