机器学习算法（一）：聚类算法

最新推荐文章于 2024-09-12 14:28:40 发布

tuqinag

最新推荐文章于 2024-09-12 14:28:40 发布

阅读量6.5k

点赞数 1

分类专栏：机器学习算法文章标签：机器学习数据挖掘聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tuqinag/article/details/45893459

版权

本文详细介绍了聚类算法，包括性能度量的外部指标和内部指标，如Jaccard系数、FM指数、Rand指数等。讨论了距离度量在处理连续和离散属性时的应用，并重点讲解了基于原型的聚类算法，如K-means的改进方法，如处理空聚类的策略。还探讨了混合高斯聚类和层次聚类算法，以及基于密度的DBSCAN算法的优缺点。

摘要由CSDN通过智能技术生成

聚类算法

聚类算法是属于无监督学习算法中非常常用的一种。算法使用的训练数据中的标签信息是未知的，目标是通过对无标记的训练样本的学习来揭示内在的性质和规律。聚类过程能够自动地形成簇结构，但是簇对应的概念语意需要由使用者来决定。聚类既能作为一个单独的过程，用于寻找数据的内在分布结构，也可以作为分类等其他学习任务的前驱过程。

性能度量

对于任何一个算法，我们都需要有一个性能指标来衡量算法结果的优劣。之前已经有一篇博客介绍了性能度量这一问题，那更多的是对于监督学习算法而言。对于聚类问题来说，有其相对独立的性能度量指标。

聚类是将数据集D划分为若干个互不相交的子集。直观上看，我们希望『物以类聚』，即同一簇的样本尽可能彼此相似，不同簇的样本尽可能不同。换言之，聚类结果的『簇内相似度』高且『簇间相似度』低。

聚类性能度量大致有两类。一类是将聚类结果与某个『参考模型』进行比较，称为『外部指标』；另一类是直接考察聚类结果而不利用任何参考模型，称为『内部指标』。

外部指标

对数据集D，假定通过聚类给出的簇划分为 $C = \{C_1, C_2,..., C_k\}$ ，参考模型给出的簇划分为 $C^* = \{C_1^*, C_2^*,..., C_s^*\}$ 。令 $\lambda$ 与 $\lambda^*$ 分别表示 $C$ 与 $C^*$ 对应簇的簇心向量。将样本两两配对考虑，定义：

a = | S S |, S S = {(x i, x j) | λ i = λ j, λ * i = λ * j, i < j}

$a = |SS|, SS = \{(x_i, x_j) | \lambda_i = \lambda_j, \lambda_i^* = \lambda_j^*, i < j\}$

b = | S D |, S D = {(x i, x j) | λ i = λ j, λ * i \neq λ * j, i < j}

$b = |SD|, SD = \{(x_i, x_j) | \lambda_i = \lambda_j, \lambda_i^* \neq \lambda_j^*, i < j\}$

c = | D S |, D S = {(x i, x j) | λ i \neq λ j, λ * i = λ * j, i < j}

$c = |DS|, DS = \{(x_i, x_j) | \lambda_i \neq \lambda_j, \lambda_i^* = \lambda_j^*, i < j\}$

d = | D D |, D D = {(x i, x j) | λ i \neq λ j, λ * i \neq λ * j, i < j}

$d = |DD|, DD = \{(x_i, x_j) | \lambda_i \neq \lambda_j, \lambda_i^* \neq \lambda_j^*, i < j\}$

其中集合SS包含了在 $C$ 中隶属与相同簇且在 $C^*$ 中也隶属于相同簇的样本对，集合SD包含了在 $C$ 中隶属于相同簇但在 $C^*$ 中隶属于不同簇的样本对。其他集合的含义可以类推得到。

基于以上集合，有下面这些常用的聚类性能度量外部指标：

Jaccard系数：

J C = a a + b + c

$JC = \frac{a}{a + b + c}$

FM指数（Fowlkes and Mallows Index）：

F M I = (a a + b \cdot a a + c) ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt 2

$FMI = \sqrt [2]{(\frac{a}{a + b} \cdot \frac{a}{a + c})}$

Rand指数：

R I = 2 ( a + d ) m ( m - 1 )

$RI = \frac{2(a + d)}{m(m - 1)}$

上述性能度量的结果均在 $[0, 1]$ 区间内，只越大越好。

内部指标

考虑聚类结果的簇划分 $C = \{C_1, C_2,..., C_k\}$ ，定义以下符号：

a v g (C) = 2 | C | ( | C | - 1 ) \sum 1 \leq i < j \leq | C | d i s t (x i, x j)

$avg(C) = \frac{2}{|C|(|C| - 1)} \sum_{1 \leq i < j \leq |C|} dist(x_i, x_j)$

d i a m (C) = m a x 1 \leq i < j \leq | C | d i s t (x i, x j)

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。