以下哪个不是迭代算法的缺点_无监督学习: K-means 聚类算法介绍

最新推荐文章于 2021-01-12 19:22:33 发布

alala33

最新推荐文章于 2021-01-12 19:22:33 发布

阅读量773

点赞数

文章标签：以下哪个不是迭代算法的缺点

本文链接：https://blog.csdn.net/weixin_33552230/article/details/112287899

版权

本文介绍了数据聚类的无监督学习问题，重点关注K-means算法。首先讨论了相似度的定义，接着详细阐述了K-means算法的工作原理、如何初始化重心（尤其是K-means++的改进方法），以及如何选择合适的K值。最后，分析了K-means算法的优点（简单、高效）和缺点（需预设K值，对异常数据敏感）。

摘要由CSDN通过智能技术生成

数据聚类是一个无监督学习问题。给n个无label的数据

, 将这n个数据聚类为k个类别。其中

,即每个数据

为d维，聚类数目k是超参数，可以根据聚类的效果进行调整。一个好的聚类算法有2个原则：

类内相似度尽量高，类间相似度尽量低。

聚类的一个示意图

1.相似度

首先考虑如何定义相似度。定义相似度的方法有很多，只有定义一个恰到好处的相似度，才能更好的度量类内相似度和类间相似度。最常见的度量相似度的方法：特征空间的距离（余弦值和相关系数等也可以度量相似度，这里不作详述）。比如我们要度量

和

的相似度，常见的特征空间的距离有3种：

Euclidean Distance ：

Minkowski Distance：

Kernel Distance:

是核函数可将低维空间的feature投映到高维空间，使某些在低维空间不可分的数据在投影后的高维空间可分。Euclidean Distance适合处理类别内的分布类似椭圆或者圆形的数据，Kernel Distance更适合处理复杂的线性不可分的数据。根据每种方法的特性不同，三种相似度度量方法有不同的应用场景。

1-1.更适合使用Euclidean Distance

1-2. 更适合使用 Kernel Distance

2.K-means 算法介绍

K-meas 算法首先假设:每个类别有一个类别重心centerid

，且每个数据

仅属于某一个类别。将centerid定义为某一个类别中所有数据的feature 平均值。

2-1 重心示意

当给定所有的类别重心

时，函数

输出与

相似度最高的重心。当采用Euclidean Distance 度量相似度时，算法的Objective Function 为sum of squared error：

为每一个数据

找到所属的类别，因为

，该优化问题是非凸问题，也没有解析解。目前在除了遍历的方法，获取不到全局最优解(global optima)。采用迭代方法（iterative method）获取local optima (这个local optima 有可能是global optima):

随机初始化
重复执行以下操作直到收敛：
a. 计算每个数据

所属的类别：
-
b. 计算每个类别的重心

:
-

因为Objective Function 对

求偏导数，并令偏导数为0，解出

的表达式正好与第6行的形式一样，所以该算法可以保证Objective Function不断下降，直到收敛。算法迭代过程如图2-2所示。

2-2. 算法迭代示意图

3. 如何更好的初始化重心：K-means++

根据初始起点

的不同，算法收敛到不同的local optima。所以一个很自然的想法，如何初始化

避免得到很差的local optima。

3-1. 不同的初始化，得到不同的local optima

K-means++ 是一种获取更好初始化的方法。不同于原始算法的等概率初始化重心

，K-means++ 按顺序的初始化重心。每个数据点

被选为重心的概率

正比与已经确定的重心

的距离。这样初始化得到的重心分布更均匀，理论上可以得到较好的local optima。

初始化

，每个数据点

都是等概率被选中
:
初始化第j个重心
-

4. 如何选择K

在K-means中K是超参数，需要人工设定。面对一个新的数据集，目前没有一个准确的方法，帮助找出一个正确的K。直觉上，K设的越大，loss(Objective Function值)越小。当K与数据集大小相等时，loss达到最小值0，即每个数据点为一个类别。为了防止K过大，可以加入一些关于K的惩罚项。另一种确定K的方法是：选择当loss不在剧烈变化时的K。如图4-1所示

4-1. 3-7 都比较适合

5. K-means优点和缺点

优点：原理简单，易于理解，容易实现，计算效率高；

缺点：1. 算法需要指定聚类数目K；

2. 若存在异常数据，对异常数据敏感；

alala33

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
以下哪个不是迭代算法的缺点_无监督学习: K-means 聚类算法介绍

数据聚类是一个无监督学习问题。给n个无label的数据 , 将这n个数据聚类为k个类别。其中 ,即每个数据为d维，聚类数目k是超参数，可以根据聚类的效果进行调整。一个好的聚类算法有2个原则：类内相似度尽量高，类间相似度尽量低。聚类的一个示意图1.相似度首先考虑如何定义相似度。定义相似度的方法有很多，只有定义一个恰到好处的相似度，才能更好的度量类内相似度和类间相似度。最常见的度量相似度的方法...
复制链接

扫一扫