机器学习算法笔记之8：聚类算法

最新推荐文章于 2024-07-30 01:28:06 发布

marsjhao

最新推荐文章于 2024-07-30 01:28:06 发布

阅读量4.5k

点赞数 2

分类专栏：机器学习/深度学习文章标签：机器学习聚类 k均值性能度量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/marsjhao/article/details/70543862

版权

本文介绍了无监督学习中的聚类任务，详细讲解了聚类性能度量、距离计算方法，并重点阐述了原型聚类中的k均值和学习向量量化算法，以及密度聚类中的DBSCAN算法和层次聚类。通过实例和关键概念解释，帮助理解各种聚类算法的工作原理和应用场景。

摘要由CSDN通过智能技术生成

一、聚类任务

在“无监督学习”（unsupervisedlearning）中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律，最常用的就是“聚类”（clustering）。

聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”（cluster）。聚类过程只能自动形成簇结构，簇对应的概念语义需由使用者来把握和命名。

聚类既能作为一个单独过程，用于找寻数据内在的分布结构，也可作为分类等其他学习任务的前驱过程。

二、性能度量

聚类性能度量亦称聚类“有效性指标”（validityindex）。对聚类结果，我们需要通过某种性能度量来评估其好坏；另一方面，若明确了性能度量，则可直接将其作为聚类过程的优化目标，从而更好地得到符合要求的聚类结果。聚类的结果应该是“簇内相似度”（intra-cluster similarity）高且“簇间相似度”（inter-clustersimilarity）低。

聚类性能度量大致有两类：一类是将聚类结果与某个“参考模型”进行比较，称为“外部指标”；另一类是直接考察聚类结果而不利用任何参考模型，称为“内部指标”。

三、距离计算

对函数dist(·,·)，若它是一个“距离度量”（distancemeasure），则需要满足以下性质：非负性、同一性、对称性、直递性。

直递性：

给定样本，最常用的是“闵可夫斯基距离”（Minkowski distance）

上式显然满足距离度量的基本性质。

p=2时，即为欧

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄14年

55
原创

430
点赞

1111
收藏

361
粉丝

关注

私信

热门文章

分类专栏

最新评论

cin、!cin作为条件判断原理分析
时光3: 以前有这两个函数？现在没了，vs2019。-----------------------------------basic_ios 的定义，发现它有两个重载函数。operator void *() const 和 bool operator!() const。这两个函数使得流对象可作为判断语句的内容。
cin、!cin作为条件判断原理分析
时光3: basic_ios 的定义，发现它有两个重载函数。operator void *() const 和 bool operator!() const。这两个函数使得流对象可作为判断语句的内容。以前有，现在没了，vs2019
Keras上实现卷积神经网络CNN
一涟河畔、怨人徨: np.random.seed(1337) 这行代码有什么用呀
Keras上实现卷积神经网络CNN
qq_34706232: 实现啥功能？
TensorFlow变量管理
woshifenghaha: 请问，tf.get_variable("foou/baru/u", [1]) 中【1】是什么意思

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。