机器学习第十四章——无监督学习

最新推荐文章于 2024-07-26 12:46:20 发布

倚剑笑紅尘

最新推荐文章于 2024-07-26 12:46:20 发布

阅读量690

点赞数

分类专栏：机器学习机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_36782366/article/details/89043799

版权

机器学习同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

机器学习

29 篇文章 1 订阅

订阅专栏

聚类

1. 定义

无监督学习，也就是不受监督的学习，一种自由的学习方式。该学习方式不需要先验知识进行指导，而是不断地自我认知，自我巩固，最后进行自我归纳，在机器学习中，无监督学习可以被简单理解为不为训练集提供对应的类别标识（label），其与有监督学习的对比如下：

有监督学习（Supervised Learning）下的训练集：

$\left\{ (x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)}) \right\}$

无监督学习（Unsupervised Learning）下的训练集：

$\left\{ (x^{(1)}),(x^{(2)}),(x^{(3)}),\cdots,(x^{(m)}) \right\}$

在有监督学习中，我们把对样本进行分类的过程称之为分类（Classification），而在无监督学习中，我们将物体被划分到不同集合的过程称之为聚类（Clustering）。聚这个动词十分精确，他传神地描绘了各个物体自主地想属于自己的集合靠拢的过程。

在聚类中，我们把物体所在的集合称之为簇（cluster）。

2. K-Means K均值聚类算法

在聚类问题中，我们需要将未加标签的数据通过算法自动分成有紧密关系的子集。那么K均值聚类算法（K-mean）是现在最为广泛使用的聚类方法。

K均值聚类算法的步骤：

首先随机选择两个点，这两个点叫做聚类中心（cluster centroids），也就是图中红色和蓝色的交叉。K均值聚类一个迭代的方法，它要做两件事，一件是簇分配，另一件是移动聚类中心。

在K均值聚类算法的每次循环里面，第一步要进行的是簇分配。首先要历遍所有的样本，也就是上图中每一个绿色的点，然后根据每一个点是更接近红色的这个中心还是蓝色的这个中心，将每一个数据点分配到两个不同的聚类中心。

例如第一次我们随机定的两个中心点和其簇分配如下图所示：

第二步要做的自然是要移动聚类中心。我们需要将两个中心点移动到刚才我们分成两类的数据各自的均值处。那么所要做的就是找出所有红色的点计算出他们的均值，然后把红色叉叉移动到该均值处，蓝色叉叉亦然。

然后通过不断重复上述两个步骤，通过不断迭代直到其聚类中心不变，那么也就是说K均值聚类已经收敛了，我们就可以从该数据中找到两个最有关联的簇了。其过程大概如下图所示：

K均值聚类算法有两个输入：一个是参数K，也就是你想从数据中聚类出簇的个数。另一个就是只有x没有y的训练集。

以下是 K 均值聚类算法的过程。

第一步是随机初始化K个聚类中心，记做： $\mu_1, \mu_2,\cdots,\mu_k$ 。

第二个大部分就是进行迭代。其中第一个循环是：对于每个训练样本，我们用变量 $c^{(i)}$ 表示在 K 个聚类中心里面最接近 $x^{(i)}$ 那个中心的下标。我们可以通过 $min_k||x^{(i)}-\mu_k||$ 进行计算。第二个循环是：移动聚类中心。将 $\mu_k$ 也就是中心点的值 = 刚才我们分好的簇的均值。

例如： $\mu_2$ 被分配到一些样本值： $x^{(1)},x^{(5)},x^{(6)},x^{(10)}$ 。这也就意味着： $c^{(1)}=2,c^{(5)}=2,c^{(6)}=2,c^{(10)}=2$ 。那么 $\mu_2$ 的新值应该为： $\frac{1}{4}[ x^{(1)}+x^{(5)}+x^{(6)}+x^{(10)}]$ 。

3. 优化

和其他机器学习算法一样，K-Means 也要评估并且最小化聚类代价，在引入 K-Means 的代价函数之前，先引入如下定义：

$\mu^{(i)}_c$ =样本 $x^{(i)}$ 被分配到的聚类中心

引入代价函数：

$J(c^{(1)},c^{(2)},\cdots,c^{(m)};\mu_1,\mu_2,\cdots,\mu_k)=\frac{1}{m}\sum_{i=1}^m\left \| x^{(i)}-\mu_c(i) \right \|^2$

J 也被称为失真代价函数(Distortion Cost Function),可以在调试K均值聚类计算的时候可以看其是否收敛来判断算法是否正常工作。

min（J（....）））计算出相应的参数c和u，也就要求样本点到他们所属簇中心的距离平方和最小。

实际上，K-Means 的两步已经完成了最小化代价函数的过程：

样本分配时(簇分配)：
我们固定住了 $(\mu_1,\mu_2,\cdots,\mu_k)$ ，而关于 $(c^{(1)},c^{(2)},\cdots,c^{(m)})$ 最小化了 J 。
中心移动时(移动类聚中心)：
我们在以已经算出 $(c^{(1)},c^{(2)},\cdots,c^{(m)})$ 参数的情况下，再关于 $(\mu_1,\mu_2,\cdots,\mu_k)$ 最小化了 J 。