ESL读书笔记14章：无监督学习之SOM，PCA，NMF，FA，ICA，MDS，ISOMAP，Local MDS

最新推荐文章于 2023-08-15 12:03:25 发布

silent56_th

最新推荐文章于 2023-08-15 12:03:25 发布

阅读量2.7k

点赞数

分类专栏：机器学习 cs229 文章标签：读书笔记机器学习主成分分析 ICA MDS

本文链接：https://blog.csdn.net/silent56_th/article/details/78942633

版权

本文详细介绍了无监督学习中的几种重要方法，包括自我组织映射（SOM）、主成分分析（PCA）、非负矩阵分解（NMF）、因子分析（FA）、独立成分分析（ICA）和多维尺度分析（MDS）。这些方法旨在揭示数据的内在结构，如SOM用于聚类，PCA、NMF、MDS等寻找低维流形，FA和ICA则考虑基向量的相关性和独立性。

摘要由CSDN通过智能技术生成

笔者自己的理解，无监督学习是挖掘数据自身的分布，找出一种低维的具有代表性或者某种性质的子空间（流形）。SOM是一种加约束的k-means，既可以看做是寻找具有代表性的特征点，也可以看做是寻找具有代表性的二维流形曲面。PCA是非常经典的最小化投影误差的子空间，也可以看做最大化投影方差的子空间。NMF则是基于假设最大化似然的同时，限制基向量非负。FA也是寻找某种子空间，目的是得到uncorrelated的基向量，并用变换矩阵近似实际观测值中的相关性。ICA同样是寻找子空间，但进一步要求基向量independent（此假设强于uncorrelated），不能用于高斯分布的数据，使得基向量不能随意旋转。MDS则是直接寻找保距的低维子空间，即子空间投影之间的距离尽可能与原空间相同。ISOMAP以及Local MDS是MDS的局部版本，旨在更好的保留数据的流形分布。
其中SOM是聚类算法，只能找到离散的特征点来近似数据分布；PCA、NMF、MDS、ISOMAP、Local MDS等则是寻找一个低维流形空间近似数据分布；FA以及ICA不仅可以得到线性子空间，而且还可以基于假设得到数据分布的概率密度。

Self-Organizing Map (SOM)

参考资料：https://youtu.be/w1XMiZg1m8Y

SOM可以看做是k-means的约束版本，即不同于k-means所有特征点之间毫无关联，SOM的特征点位于某个假象的方格上面，各个特征点之间基于方格上的距离存在不同程度的关联。
SOM的具体算法是先假象有一个方格（ $q_1\times q_2$ ），其中 $q_1,q_2$ 任意指定，其选择决定了SOM的特征点数，共用 $q_1* q_2$ 个特征点（每个方格的交叉点）。每个特征点均位于观测的数据空间中 $R^p$ ，有一个特征值。故不同于k-means只有一个位于观测空间 $R^p$ 的特征值，SOM的特征点同时位于方格空间 $R^{q_1\times q_2}$ 中，存在一个方格空间坐标。特征点的方格坐标在学习的过程中是不变的，而特征值 $R^p$ 在学习过程中不断改变，更加接近数据分布。方格坐标是SOM为特征点之间加入约束的方式，每次根据数据点更新特征值的时候，不仅仅更新特征值离数据点最近的特征点的特征值，而且同时更新在方格中与最近特征点较近的特征点的特征值。每次仅仅处理一个数据点，重复多次之后，得到的SOM中 $q_1*q_2$ 个特征点的特征值即表示了数据的空间分布，也可以将每个数据点分配给特征值离其最近的特征点，进行聚类分析。
基于不同的距离度量，更新时各个特征点的权重赋予，以及每次处理的数据点的多少可以构造不同的SOM算法。每种算法都保证了SOM的保距性质，即观测空间中相近的数据点投影到方格空间中相近的特征点。

最简单的方法如下：
SOM
根据距离赋予特征点更新权重的方法如下：
SOM2
batch版本如下：
batch SOM

Principle Component Analysis (PCA)

主成分分析法非常常见常用，以至于Ng认为它被过度滥用了。有很多种对PCA结论的解释，这里仅阐述两种：最小化投影误差，以及最大化投影方差。

首先，常见的数据预处理步骤包括数据平移（减均值），以及缩放（除以方差）。故以下分析中存在多解的情况，均以方便以上假设成立的情况下进行求解。

PCA寻找的是低维线性子空间，故存在一组正交基 $V_{p\times q}$ ， $V^TV=I_q$ ，其中 $p$ 为观测空间维度， $q$ 为子空间维度，有 $q<p$ 。在未白化的数据中进行PCA，则是寻找一个平移过后的子空间，设平移向量为 $\mu$ ，即该向量集合中包括所有的 $\{\mu+Vb,\forall b\}$ 。

任意向量 $x\in R^p$ 在该空间中的投影为 $VV^T(x-\mu)+\mu\in R^p$ 。首先我们讨论最小化投影误差的情况： $e=x-(VV^T(x-\mu)+\mu)=(I_p-VV^T)(x-\mu)$ ，我们希望最小化训练集中的平方投影误差

e r r = \sum i = 1 m e T i e i = \sum i = 1 m (x - μ) T (I p - V V T) T (I p - V V T) (x - μ)

$err=\sum_{i=1}^me_i^Te_i = \sum_{i=1}^m(x-\mu)^T(I_p-VV^T)^T(I_p-VV^T)(x-\mu)$
对

μ $\mu$ 求导有

μ=x¯ $\mu=\bar x$

\partial e r r \partial μ = \sum i = 1 m 2 e i \partial e i \partial μ = \sum i = 1 m 2 e i [- (I p - V V T)] = 0

$\frac{\partial err}{\partial \mu} = \sum_{i=1}^m 2e_i\frac{\partial e_i}{\partial \mu}=\sum_{i=1}^m 2e_i[-(I_p-VV^T)]=0$
构造

最低0.47元/天解锁文章

silent56_th

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
ESL读书笔记14章：无监督学习之SOM，PCA，NMF，FA，ICA，MDS，ISOMAP，Local MDS

笔者自己的理解，无监督学习是挖掘数据自身的分布，找出一种低维的具有代表性或者某种性质的子空间（流形）。SOM是一种加约束的k-means，既可以看做是寻找具有代表性的特征点，也可以看做是寻找具有代表性的二维流形曲面。PCA是非常经典的最小化投影误差的子空间，也可以看做最大化投影方差的子空间。NMF则是基于假设最大化似然的同时，限制基向量非负。FA也是寻找某种子空间，目的是得到uncorrelated
复制链接

扫一扫

专栏目录