《机器学习》学习笔记8：无监督学习 - 聚类与降维

最新推荐文章于 2024-11-20 17:25:22 发布

Mengo_x

最新推荐文章于 2024-11-20 17:25:22 发布

阅读量1.4k

点赞数

分类专栏：机器学习 Python与AI 文章标签：聚类机器学习人工智能

本文链接：https://blog.csdn.net/qq_44577070/article/details/121136980

版权

Python与AI 同时被 2 个专栏收录

20 篇文章

订阅专栏

机器学习

16 篇文章

订阅专栏

本文深入探讨无监督学习中的聚类与降维技术，重点介绍K-均值算法原理及应用，主成分分析（PCA）及其步骤，并提供实用建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Week8 无监督学习：聚类与降维
基于吴恩达《机器学习》课程
参考黄海广的笔记
本篇博客为第八周的内容。

13 聚类(Clustering)

在无监督学习中，我们的数据没有附带任何标签，训练集只有 ${x^{(1)},x^{(2)}...x^{(m)}\}$ ,而没有任何标签 $y$ 。

将这些无标签数据分成N个分开点集（称为簇）的算法，就被称为聚类算法。聚类算法可用于市场分割、社交网络分析、组织计算机集群、管理数据中心等。

13.1 K-均值算法(K-Means Algorithm)

K-均值算法是一个迭代算法，如果我们想要将数据聚类成 $k$ 个组，其方法为：

选择 $K$ 个随机的点 $μ^1$ , $μ^2$ ,…, $μ^k$ ，称为聚类中心（cluster centroids）；
对于数据集中的每一个数据，按照与 $K$ 个聚类中心的距离，将其与距离最近的中心点关联起来，与同一个中心点关联的所有点聚成一类。用 $c^{(1)}$ , $c^{(2)}$ ,…, $c^{(m)}$ 来存储与第 $i$ 个实例数据最近的聚类中心的索引；
计算每一个聚类的平均值；
将该组所关联的聚类中心移动到平均值的位置。

重复步骤2-4直至聚类中心不再变化。算法伪代码如下：

Repeat {
  for i = 1 to m
  c(i) := index (form 1 to K) of cluster centroid closest to x(i)
  for k = 1 to K
  μk := average (mean) of points assigned to cluster k
}

第一个for循环是赋值步骤，即对于每一个样例 $i$ ，计算其应该属于的类。

第二个for循环是聚类中心的移动，即对于每一个类 $K$ ，重新计算该类的质心。

13.2 优化目标

K-均值算法要最小化所有的数据点与其所关联的聚类中心之间的距离之和，因此 K-均值的代价函数（又称畸变函数或失真函数 Distortion function）为：

$J(c^{(1)},...,c^{(m)},μ_1,...,μ_K)=\dfrac {1}{m}\sum^{m}*{i=1}\left| X^{\left( i\right) }-\mu*{c^{(i)}}\right| ^{2}$

其中 ${{\mu }_{{{c}^{(i)}}}}$ 代表与 ${{x}^{(i)}}$ 最近的聚类中心点。我们的的优化目标便是找出使得代价函数最小的 $c^{(1)}$ , $c^{(2)}$ ,…, $c^{(m)}$ 和 $μ^1$ , $μ^2$ ,…, $μ^k$ 。

上部分的伪代码中，第一个循环是用于减小 $c^{(i)}$ 引起的代价，而第二个循环则是用于减小 ${{\mu }_{i}}$ 引起的代价。迭代的过程一定会是每一次迭代都在减小代价函数，不然便是出现了错误。

13.3 初始化中心点与选择聚类数

运行K-均值算法的之前，首先要随机初始化所有的聚类中心点：

我们应该选择 $K < m$ ，即聚类中心点的个数要小于训练集实例的数量
随机选择 $K$ 个训练实例，然后令 $K$ 个聚类中心分别与这 $K$ 个训练实例相等

由于初始化的不同，算法可能会停留在一个局部最小值。

为了解决这个问题，我们通常需要多次运行K-均值算法，每一次都重新进行随机初始化，最后再比较多次运行结果，选择代价函数最小的结果。但是如果 $K$ 较大，也可能不会有明显地改善。

选择聚类数的方法，通常是需要根据不同的问题需要，人工进行选择的。

有时候我们也可以通过“肘部法则”来选取聚类数：

改变 $K$ 值，然后计算畸变函数 $J$ ，得到 $K - J$ 曲线：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K9gYfQAq-1635992408932)(https://secure.wostatic.cn/static/e6FeAtkZFnPv79xniaHqvN/image.png)]

如果曲线如左图，在3的时候达到一个肘点。在此之后，畸变值就下降的非常慢，那么我们就选 $K = 3$ 。但是大多数时候这样得到的图没有明显肘点，还是需要按目标人工选择。

13.4 聚类参考资料

1. 相似度/距离计算方法总结

(1) 闵可夫斯基距离Minkowski/（其中欧式距离： $p = 2$ )

$dist(X,Y)={{\left( {{\sum\limits_{i=1}^{n}{\left| {{x}_{i}}-{{y}_{i}} \right|}}^{p}} \right)}^{\frac{1}{p}}}$

(2) 杰卡德相似系数(Jaccard)：

$J(A,B)=\frac{\left| A\cap B \right|}{\left|A\cup B \right|}$

(3) 余弦相似度(cosine similarity)：

$n$ 维向量 $x$ 和 $y$ 的夹角记做 $\theta$ ，根据余弦定理，其余弦值为：

$(\theta )=\frac{{{x}^{T}}y}{\left|x \right|\cdot \left| y \right|}=\frac{\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}}}{\sqrt{\sum\limits_{i=1}^{n}{{{x}_{i}}^{2}}}\sqrt{\sum\limits_{i=1}^{n}{{{y}_{i}}^{2}}}}$

(4) Pearson皮尔逊相关系数：

${{\rho }_{XY}}=\frac{\operatorname{cov}(X,Y)}{{{\sigma }_{X}}{{\sigma }_{Y}}}=\frac{E[(X-{{\mu }_{X}})(Y-{{\mu }_{Y}})]}{{{\sigma }_{X}}{{\sigma }_{Y}}}=\frac{\sum\limits_{i=1}^{n}{(x-{{\mu }_{X}})(y-{{\mu }_{Y}})}}{\sqrt{\sum\limits_{i=1}^{n}{{{(x-{{\mu }_{X}})}^{2}}}}\sqrt{\sum\limits_{i=1}^{n}{{{(y-{{\mu }_{Y}})}^{2}}}}}$

Pearson相关系数即将 $x$ 、 $y$ 坐标向量各自平移到原点后的夹角余弦。

2. 聚类的衡量指标

(1) 均一性： $p$

类似于精确率，一个簇中只包含一个类别的样本，则满足均一性。其实也可以认为就是正确率，每个聚簇中正确分类的样本数占该聚簇总样本数的比例和。

(2) 完整性： $r$

类似于召回率，同类别样本被归类到相同簇中，则满足完整性。每个聚簇中正确分类的样本数占该类型的总样本数比例的和。

(3) V-measure：均一性和完整性的加权平均

$\frac{(1+\beta^2)_pr}{\beta^2_p+r}$

(4) 轮廓系数

样本 $i$ 的轮廓系数： $s (i)$

簇内不相似度:计算样本 $i$ 到同簇其它样本的平均距离为 $a (i)$ ，应尽可能小。

簇间不相似度:计算样本 $i$ 到其它簇 $C_j$ 的所有样本的平均距离 $b_{ij}$ ，应尽可能大。

轮廓系数： $s (i)$ 值越接近1表示样本 $i$ 聚类越合理，越接近-1，表示样本 $i$ 应该分类到另外的簇中，近似为0，表示样本 $i$ 应该在边界上;所有样本的 $s (i)$ 的均值为聚类结果的轮廓系数。

$\frac{b(i)-a(i)}{max({a(i),b(i)})}$

(5). ARI

数据集 $S$ 共有 $N$ 个元素，两个聚类结果分别是：

$X={{{X}_{1}},{{X}_{2}},...,{{X}_{r}}},Y={{{Y}_{1}},{{Y}_{2}},...,{{Y}_{s}}}$

$X$ 和 $Y$ 的元素个数为：

$a={{{a}_{1}},{{a}_{2}},...,{{a}_{r}}},b={{{b}_{1}},{{b}_{2}},...,{{b}_{s}}}$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Eb6da2I-1635992408936)(https://secure.wostatic.cn/static/m7JgNHJcduh7Q1KbV4YjLt/image.png)]

记： ${{n}_{ij}}=\left| {{X}_{i}}\cap {{Y}_{i}} \right|$

$ARI=\frac{\sum\limits_{i,j}{C_{{{n}_{ij}}}^{2}}-\left[ \left( \sum\limits_{i}{C_{{{a}_{i}}}^{2}} \right)\cdot \left( \sum\limits_{i}{C_{{{b}_{i}}}^{2}} \right) \right]/C_{n}^{2}}{\frac{1}{2}\left[ \left( \sum\limits_{i}{C_{{{a}_{i}}}^{2}} \right)+\left( \sum\limits_{i}{C_{{{b}_{i}}}^{2}} \right) \right]-\left[ \left( \sum\limits_{i}{C_{{{a}_{i}}}^{2}} \right)\cdot \left( \sum\limits_{i}{C_{{{b}_{i}}}^{2}} \right) \right]/C_{n}^{2}}$

14 降维(Dimensionality Reduction)

14.1 降维的目的

数据压缩

数据压缩不仅允许我们压缩数据节省计算机内存或磁盘空间，也能加快我们的学习算法。

例如，二维降一维就是将二维的特征向量投影到一维直线上，三维降二维就是将三维向量投射到一个二维的平面上。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1mBmGe4d-1635992408938)(https://secure.wostatic.cn/static/CMLa3kxHgRRHWMEguXYpT/image.png)]

数据可视化

例如我们有有关于许多不同国家的数据，每一个特征向量都有50个特征（如GDP，人均GDP，平均寿命等）。如果要将这个50维的数据可视化是不可能的。使用降维的方法将其降至2维，我们便可以将其可视化了。

但是降维的算法只负责减少维数，新产生的特征的意义就必须由我们自己去发现了。

14.2 主成分分析算法(Principal Component Analysis Algorithm)

1. 主成分分析(PCA)是最常见的降维算法

在二维降一维的PCA中，我们要做的是找到一个经过原点的方向向量（Vector direction），把所有的数据都投影到该向量上时，希望投射平均均方误差能尽可能地小。投射误差是从数据点向该方向向量作垂线的长度。

推广到将 $n$ 维数据降至 $k$ 维，目标是找到向量 $u^{(1)}$ , $u^{(2)}$ ,…, $u^{(k)}$ 使得总的投射误差最小。

主成分就是对新向量的重要性进行排序，选出的最重要的部分。将后面的维数省去，可以达到降维从而简化模型或是对数据进行压缩的效果，同时最大程度的保持了原有数据的信息。

主成分分析与线性回归是两种不同的算法。主成分分析最小化的是投射误差（Projected Error），而线性回归尝试的是最小化预测误差。线性回归的目的是预测结果，而主成分分析不作任何预测。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hwzFCRYQ-1635992408938)(https://secure.wostatic.cn/static/eUjU1nTSmuGioXCMwMDXU9/image.png)]

上图中，左边的是线性回归的误差（垂直于横轴投影），右边则是主要成分分析的误差（垂直于红线投影）。

PCA 要保证降维后，还要保证数据的特性损失最小。在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预，最后的结果只与数据相关，与用户是独立的。

2. 使用PCA将 $n$ 维减为 $k$ 维的步骤

(1) 数据预处理：可能需要先进行特征缩放，然后进行均值归一化，计算出所有特征的均值 $μ_j=\dfrac {1}{m}\sum\limits_{i=1}^{m}x_j^{(i)}$ ，然后令 $x_j^{(i)}= x_j^{(i)}-μ_j$ ，这样使所有特征均值为0。如果特征是在不同的数量级上，我们还需要将其除以标准差 $σ^2$ ，也可以用特征值的取值范围 $r a n g e (m a x - m i n)$ 代替。

(2) 接下来要找到方向向量和各点的低维坐标。计算协方差矩阵（covariance matrix） $Σ$ ：

$\sum=\dfrac {1}{m}\sum\limits_{i=1}^{n}\left( x^{(i)}\right) \left( x^{(i)}\right) ^{T} = \dfrac {1}{m}X^TX$

(3) 计算协方差矩阵 $Σ$ 的特征向量（eigenvectors）

在 Octave 里可以用奇异值分解（singular value decomposition）来求解，[U, S, V]= svd(sigma)

$U$ 是与数据之间的投射误差最小的方向向量构成的 $n \times n$ 矩阵。如果我们希望将数据从 $n$ 维降至 $k$ 维，我们只需要从 $U$ 中选取前 $k$ 个向量，获得一个 $n \times k$ 维度的矩阵 $U_{reduce}$ 即为要投影的方向向量，然后计算低维坐标 $z^{(i)}$ :

$z^{(i)}=U^{T}_{reduce}*x^{(i)}$

其中 $x^{(i)}$ 是 $n \times 1$ 维的，因此 $z^{(i)}$ 为 $k \times 1$ 维度。

3. 压缩后重建原始数据

在压缩过数据后，我们可以采用如下方法来近似地获得原有的特征（重建原始数据）：

$*x^{\left( i\right) }_{approx}=U_{reduce}z^{(i)}\approx x^{\left( i\right) }*$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r2N6wPyM-1635992408939)(https://secure.wostatic.cn/static/bz3oD8fpkYwztQ1HcD4Xfi/image.png)]

4. 主成分数量 $k$ 的选择

主成分分析算法投射的平均均方误差： $\dfrac {1}{m}\sum\limits_{i=1}^{m}\left| x^{\left( i\right) }-x^{\left( i\right) }_{approx}\right| ^{2}$

训练集的方差为： $\dfrac {1}{m}\sum\limits_{i=1}^{m}\left| x^{\left( i\right) }\right| ^{2}$

我们希望在平均均方误差与训练集方差的比例尽可能小的情况下选择尽可能小的 $k$ 值。例如希望这个比例小于1%：

$\dfrac {\dfrac {1}{m}\sum\limits_{i=1}^{m}\left| x^{\left( i\right) }-x^{\left( i\right) }_{approx}\right| ^{2}}{\dfrac {1}{m}\sum\limits_{i=1}^{m}\left| x^{(i)}\right| ^{2}}\leq 1\%$

就意味着原本数据的偏差有99%都保留下来了。

我们可以先令 $k = 1$ ，然后进行主要成分分析，获得 $U_{reduce}$ 和 $z$ ，然后计算比例是否小于1%。如果不是的话再令 $k = 2$ ，如此类推，直到找到可以使得比例小于1%的最小 $k$ 值。

还有一些更好的方式来选择 $k$ ，当我们在Octave中调用svd函数的时候，我们获得三个参数：[U, S, V] = svd(sigma)

其中的 $S$ 是一个 $n \times n$ 的对角矩阵，我们可以使用这个矩阵来计算平均均方误差与训练集方差的比例：

$\dfrac {\dfrac {1}{m}\sum^{m}_{i=1}\left| x^{\left( i\right) }-x^{\left( i\right) }_{approx}\right| ^{2}}{\dfrac {1}{m}\sum^{m}_{i=1}\left| x^{(i)}\right| ^{2}}=1-\dfrac {\Sigma^{k}_{i=1}S_{ii}}{\Sigma^{m}_{i=1}S_{ii}}\leq 1\%$