机器学习-无监督学习-聚类算法

最新推荐文章于 2024-07-09 15:33:08 发布

&，？

最新推荐文章于 2024-07-09 15:33:08 发布

阅读量890

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_46137221/article/details/107686786

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习-无监督学习-聚类算法

1.什么是无监督学习
2.聚类算法(K-均值)
3.优化目标
4.随机初始化以及K值的选择

1.什么是无监督学习

首先，在一个典型的监督学习中，我们有一个有标签的训练集，我们的目标是找到能够区分正样本和负样本的决策边界，在这里的监督学习中，我们有一系列标签，我们需要据此拟合一个假设函数。与此不同的是，在非监督学习中，我们的数据没有附带任何标签，我们拿到的数据就是这样的：
在这里插入图片描述
在这里我们有一系列点，却没有标签。因此，我们的训练集可以写成只有𝑥(1),𝑥(2）……一直到𝑥(𝑚)。我们没有任何标签𝑦。因此，图上画的这些点没有标签信息。也就是说，在非监督学习中，我们需要将一系列无标签的训练数据，输入到一个算法中，然后我们告诉这个算法，快去为我们找找这个数据的内在结构给定数据。

2.聚类算法(K-均值)

根据以上对非监督学习的描述，我们猜想有很多算法，可以在我们输入一系列无标签的训练数据后，帮助我们寻找这些训练数据的内在结构或者是其他类型的结构和一些模式。
聚类算法就是其中的一个，其原理简单来说就是，想象你有一堆散点需要聚类（分类）。首先你要确定这堆散点最后聚成几类，然后挑选几个点作为初始中心点，再然后给数据点做迭代重置，直到最后到达“类内的点都足够近，类间的点都足够远”的目标效果。
例如，图上的数据看起来可以分成两个分开的点集（称为簇），一个能够找到我圈出的这些点集的算法，就被称为聚类算法。
其中：
K-均值是最普及的聚类算法，算法接受一个未标记的数据集，然后将数据聚类成不同的组。K-均值是一个迭代算法，假设我们想要将数据聚类成 n 个组，其方法为(经典K-means算法流程):

随机地选择k个对象，每个对象初始地代表了一个簇的中心；
对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇；
重新计算每个簇的平均值，更新为新的簇中心；
不断重复2、3，直到准则函数收敛。

用𝜇1,𝜇2,…,𝜇𝑘 来表示聚类中心，用𝑐(1),𝑐(2),…,𝑐(𝑚)来存储与第𝑖个实例数据最近的聚类中心的索引，K-均值算法的伪代码如下：
Repeat {
for i = 1 to m
c(i) := index (form 1 to K) of cluster centroid closest to x(i)
for k = 1 to K
μk := average (mean) of points assigned to cluster k
}
算法分为两个步骤，第一个 for 循环是赋值步骤，即：对于每一个样例𝑖，计算其应该属于的类。第二个 for 循环是聚类中心的移动，即：对于每一个类𝐾，重新计算该类的质心。

3.优化目标

K-均值最小化问题，是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和，因此 K-均值的代价函数（又称畸变函数 Distortion function）为：
在这里插入图片描述
其中𝜇𝑐(𝑖)代表与𝑥(𝑖)最近的聚类中心点。我们的的优化目标便是找出使得代价函数最小的 𝑐
(1),𝑐(2),…,𝑐(𝑚)和𝜇1,𝜇2,…,𝜇𝑘：

4.随机初始化以及K值的选择

在运行 K-均值算法的之前，我们首先要随机初始化所有的聚类中心点，下面介绍怎样做：

我们应该选择𝐾 < 𝑚，即聚类中心点的个数要小于所有训练集实例的数量
随机选择𝐾个训练实例，然后令𝐾个聚类中心分别与这𝐾个训练实例相等

K-均值的一个问题在于，它有可能会停留在一个局部最小值处，而这取决于初始化的情况。例如：
在这里插入图片描述
为了解决这个问题，我们通常需要多次运行 K-均值算法，每一次都重新进行随机初始化，最后再比较多次运行 K-均值的结果，选择代价函数最小的结果。这种方法在𝐾较小的时候（2–10）还是可行的，但是如果𝐾较大，这么做也可能不会有明显地改善。
所以：当人们在讨论，选择聚类数目的方法时，有一个可能会谈及的方法叫作“肘部法则”。关于“肘部法则”，我们所需要做的是改变𝐾值，也就是聚类类别数目的总数。我们用一个聚类来运行 K 均值聚类方法。这就意味着，所有的数据都会分到一个聚类里，然后计算成本函数或者计算畸变函数𝐽。𝐾代表聚类数字。例如：
在这里插入图片描述
图一，从 1 到 2，从 2 到 3 之后，你会在 3 的时候达到一个肘点。在此之后，畸变值就下降的非常慢，看起来就像使用 3 个聚类来进行聚类是正确的，这是因为那个
点是曲线的肘点，畸变值下降得很快，𝐾 = 3之后就下降得很慢，那么我们就选𝐾 = 3。
但是对于图二我很难判断肘点是2，还是3，还是4或者其他。

因此：没有所谓最好的选择聚类数的方法，通常是需要根据不同的问题，人工进行选择的。选择的时候思考我们运用 K-均值算法聚类的动机是什么，然后选择能最好服务于该目的标聚类数。
例如：
我们的 T-恤制造例子中，我们要将用户按照身材聚类，我们可以分成 3 个尺
寸:𝑆, 𝑀, 𝐿，也可以分成 5 个尺寸𝑋𝑆, 𝑆, 𝑀, 𝐿,𝑋𝐿，这样的选择是建立在回答“聚类后我们制造的 T-恤是否能较好地适合我们的客户”这个问题的基础上作出的。
在这里插入图片描述