Machine Learning（吴恩达＜五＞K-means和PCA)

-小透明-

已于 2022-06-28 09:43:59 修改

阅读量1k

点赞数 2

分类专栏：吴恩达机器学习笔记文章标签：机器学习 python 聚类 kmeans 无监督学习

于 2021-11-21 20:36:56 首次发布

本文链接：https://blog.csdn.net/qq_54809548/article/details/121411517

版权

吴恩达机器学习笔记专栏收录该内容

6 篇文章 5 订阅

订阅专栏

无监督学习1--聚类

什么是无监督学习？

训练集只有x1，x2...,xi，没有标签y的数据。

我们要将无标签的数据输入，然后让算法找到一些隐含在数据中的结构，

把这些无标签的数据分成一簇一簇的，就是聚类算法(学习的第一个无监督学习的算法)。

聚类有哪些应用？

K-means算法

语言表述步骤

给定一组未加标签的数据集，希望有一个算法能够自动的讲这些数据分成有紧密关系的子集或簇。

K-means算法是目前比较热门，应用较多的算法之一。

K-mean步骤：假如下图我想把数据分成两个簇

首先随机生成两点，这两点叫做聚类中心，K-means是一个迭代算法，做两件事：第一件 簇分配，第二个 移动聚类中心。簇分类时：需要遍历每个数据，根据它与两个随机点的距离那个近，就把这个数据分配给那个点。移动聚类中心：找到所有同颜色的点计算其均值的位置为新的聚类中心。然后再次计算每个点距离中心点的距离分，重复这两个步骤，直到中心点不再改变。

伪代码表示k-means的过程

说明：假设uk是某个簇的均值，如果存在一个没有点的聚类中心，直接移除这个聚类中心，最终会得到K-1个簇；如果想要最终的到K个簇，那么需要重新初始化聚类中心；但最常见的做法，一般是直接移除。

常应用来解决分离不佳的簇的问题

例如将根据体重设计衣服的尺寸(S,L,M)

优化目标

K：表示簇的数量；k：表示聚类中心点的下标，c^i:表示xi被划分到第几个簇。

K-means的代价函数为下图中的J，算法最终要找到c^i,μ_i，即能最小化J的参数值。这个代价函数有时也叫做 失真代价函数 或 K-means的失真。 J->畸变函数

随机初始化

如何使算法避免局部最优解？

初始化点不同，结果也不同。

初始化选择的点可能会使结果陷入局部最优，如下图右下角两张图所示。

要避免陷入局部最优，我们需要做多次初始化而不是一次。来保证最终得到的是最优的。

常见的初始化次数在 50到1000次。当然如果K比较小，次数少一些。

选取聚类数量

目前还没有可以自动选择聚类的数目的算法，需要通过可视化数据或观察聚类的输出来选择(手动)

"肘部法则"

如果得到左图的曲线，是好的，但通常得到的图是右图，无法判断那个点，所以相当于啥都没做。

因此不要期望它每次都有用。

下面仍然以衣服尺寸聚类为例：

衣服的销售量可能会帮你决定分成几类，怎样利用后续的目的决定什么样的衣服作为评价标准来选择聚类数。手动选择时，想想聚类的目的是什么？

无监督学习2--降维

目标1---数据压缩

压缩可以减小占用的空间，可以使学习算法运行的更快。

图一-->图二(将数据投影到一个平面)-->最后降到二维空间表示

目标2---可视化

PCA(也叫主成分分析)

主成分分析问题规划1

PCA问题的公式描述

公式描述即用公式描述PCA的用途。 Principal component analysis（主成分分析）

数学证明过于复杂，因此这里没有数学证明u和z为什么可以这么用。

如下图：对于一个二维数据我们想找到一条直线，将点投影到这条直线上，它会找到一个低维平面(这里是一条直线)，将点投影到这个面上，每个点与投影之间的距离叫做"投影误差"，PCA会选择误差平方最小的面或线作为投影面或线，以便最小化平法投影误差。

PCA与线性回归

首先，PCA不是线性回归，他们是两种不同的算法，他们计算的误差是不一样的，如下图所示。

主成分分析问题规划2

数据处理

无监督学习中，均值标准化过程(使每个特征具有均值为0的特点)与特征缩放(根据数据集决定)过程很相似。

计算u^(i),z的描述过程如下图，协方差用∑(大写的σ:一个协方差矩阵)表示，式子左边为协方差，右面是求和符号。svd:表示奇异值分解。不同语言找有这个功能的库就行了。

总结

进行均值归一化后为确保每一个特征都是均值为0的。根据数据范围任选特征缩放。预处理完后计算载体矩阵Sigma，通过这个方法，如果你的数据是被给予作为一个矩阵如图中的X训练集矩阵，然后我们先得到要降维矩阵U的前k列，z=..定义了我们如何从一个特征向量x到降维的表示z。

主成分数量选择

我们希望在平均均方误差与训练集方差的比例尽可能小的情况下选择尽可能小的 k值（从n个特征降到k个特征）如果我们希望这个比例小于1%，就意味着原本数据的偏差有99%都保留下来了，如果我们选择保留90%的偏差，便能非常显著地降低模型中特征的维度了。

我们可以先令k=1，然后进行主成分分析，获得U_{reduce}Ureduce和z，然后计算比例是否小于1%。如果不是的话再令k=2，依次类推，直到找到可以使得比例小于1%的最小k值（因为各个特征之间通常情况存在某种相关性).其中的 S是一个n×n 的矩阵，只有对角线上有值，而其它单元都是 0，我们可以使用这个矩阵来计算平均均方误差与训练集方差的比例：

即：

压缩重现

重现即怎么从压缩后的数据得到之前的数据表示？

应用PCA的建议

首先，我们尝尝使用PCA加速无监督学习算法。假设你有一个监督学习的数据，其中x^i有很高的维度，实际中这可能是一个计算机视觉的问题。即假设我们有一张 100×100 像素的图片包含10000 个像素强度值，对于这种很高维的特征向量，运行学习算法时很慢。这是用PCA降低它的维度，步骤如下：

首先，抽出x，不看y；运用PCA将数据压缩至1000个特征
然后，对训练集运行某个学习算法:逻辑回归、SVM、神经网络等
最后，如果有一个新的样本，将新的测试样本x经过PAC的映射关系进行映射获得相应的z，然后把z带到假设函数中
note:PCA定义一个从x到z的映射，这个映射只能通过在训练集上运行PCA来定义。所做的是计算一系列参数进行特征缩放和均值归一化，它还计算矩阵U_reduce(只能从训练集上训练得出)错误的使用PCA的情况：
认为PCA是一种防止过拟合的方法。防止过拟合的最好的办法正则化。原因在于PCA只是近似地丢弃掉一些特征，它并不考虑任何与y有关的影响，因此可能会丢失非常重要的特征。
默认地将PCA作为学习过程中的一部分，这虽然很多时候有效果，建议在使用PCA前先从所有原始特征开始，只在当你确定用x无法运行时（算法运行太慢或者占用太多内存）再考虑采用PCA。
总:PCA应用于提高算法运行效率、数据压缩、可视化。