聚类dbi指数_聚类算法

最新推荐文章于 2024-06-23 04:00:26 发布

北国之风

最新推荐文章于 2024-06-23 04:00:26 发布

阅读量3.3k

点赞数

文章标签：聚类dbi指数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42467445/article/details/112881277

版权

本文介绍了无监督学习中的聚类任务，聚类旨在将数据集中的样本分为若干互不相交的子集，形成簇。聚类度量分为外部指标和内部指标，其中DBI指数和Dumn指数是内部指标的常见选择。DBI值越大表示聚类效果越好，而Dumn指数则期望值越小越好。此外，文章还讨论了距离计算、聚类算法，如k均值和学习向量量化，以及它们的特点和应用场景。

摘要由CSDN通过智能技术生成

1 聚类任务

在无监督学习中，获取的数据集是没有label信息的，无监督学习的目的是对无label的数据集进行学习以揭示数据内部的性质及规律，为进一步的数据分析提供基础。

聚类是最常见的无监督学习任务。

聚类的目的是试图将数据集中的样本分成若干个不相交的子集，每一个子集称为一个簇，每个簇对应一个潜在的概念，如“浅色瓜”“无籽瓜”等。但是要注意的是，每个簇的概念是由使用者来定义的，聚类算法只是将具有形似性质的样本聚类成簇，而不同簇表示的含义对聚类算法而言是未知的。

形式化的定义聚类过程，就是对于无标记的数据集D={x1,x2,⋯,xm},xi∈Rn，经过聚类之后形成k个不相交的簇{Cl∣l=1,2,⋯,k}，其中⋃i=1kCi=D,Cl⋂Cl′=∅(l̸=l′)。

聚类可以作为单独的应用，用于发掘数据的内在结构。也可以用作其他应用的前驱过程，例如在一些商业应用中，往往先对用户类型聚类成簇之后，再对新用户的类型进行判别。

2 聚类度量

聚类度量是表述聚类结果好坏的标准。

对聚类结果，总体而言，是希望属于同一簇的样本尽可能相似，属于不同簇的样本差距尽可能大，也就是希望达到“簇内相似度高”、“簇间相似度低”的效果。

聚类度量可以分为两类，一类是有外部参考结果的外部指标；另一类是无外部参考结果的内部指标。

2.1 外部指标

数据集D={x1,x2,⋯,xm}，通过聚类给出簇划分C={C1,C2,⋯,Ck}，外部参考模型给出的簇划分结果为C∗={C1∗,C2∗,⋯,Cs∗}&#

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
聚类dbi指数_聚类算法

1 聚类任务在无监督学习中，获取的数据集是没有label信息的，无监督学习的目的是对无label的数据集进行学习以揭示数据内部的性质及规律，为进一步的数据分析提供基础。聚类是最常见的无监督学习任务。聚类的目的是试图将数据集中的样本分成若干个不相交的子集，每一个子集称为一个簇，每个簇对应一个潜在的概念，如“浅色瓜”“无籽瓜”等。但是要注意的是，每个簇的概念是由使用者来定义的，聚类算法只是将具有形似性...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。