机器学习——无监督学习与分析

最新推荐文章于 2024-05-31 17:18:37 发布

楠兮兮

最新推荐文章于 2024-05-31 17:18:37 发布

阅读量454

点赞数

分类专栏：机器学习文章标签：聚类最大期望算法

本文链接：https://blog.csdn.net/X1009190387/article/details/106736206

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、无监督学习
对于LR或SVM中的样本，都给出了正确的类标签，因此称为监督学习。当数据样本没有像监督学习那样，给出类标签或所谓的正确答案，那么需要靠算法本身发现数据中的结构，称为无监督学习。

1.1 K-means算法
聚类的基本思想是，对于给定的数据集合，将数据聚集成若干一致的类。典型的聚类算法是K-means，用于寻找数据集合中的类，算法步骤如下
（1）从数据中初始化k个类中心点 $\bm\mu$ ；
（2）设置第i个样本的类 $c^{(i)} = argmin_j\ ||\bm{x}^{(i)} - \bm\mu^{(j)}||$ （3）计算类中心 $\bm\mu_j = \sum_{i = 1}^m 1\{c^{(i)} = j\}\bm{x}^{(i)}/ \sum_{i = 1}^m 1\{c^{(i)} = j\}$ （4）迭代（2）-（3），直到收敛。
考虑K-means算法的收敛性，定义失真函数 $\bm\mu) = \sum_{i=1}^m ||\bm{x}^{(i)} - \bm\mu_{c^{(i)}}||^2$ 那么K-means算法就是失真函数的坐标上升过程。其交替的固定 $c$ ，改变 $\bm\mu$ 令函数最优化，之后固定 $\bm\mu$ ，改变 $c$ 令函数最优化。故失真函数随着迭代次数的上升一定是单调下降的，但由于该函数非凸，有可能收敛到局部最优解。
K-means的类数是人为选择的。实际上，真正的类数量是十分模糊的概念，所以随机选择类的数量也是一种方法。

1.2 EM算法
对于某些有一定意义的数据，其可能不服从于任何标准的概率分布，使用密度估计算法估计其概率密度。一般的，一个非标准的分布都可以使用多个高斯函数进行拟合，称为混合高斯模型【GMM】。
考虑未知的随机变量 $\bm{z}$ ，其可能是隐藏的，或者未知的。考虑 $\bm{x}^{(i)}, \bm{z}^{(i)}$ 的联合概率分布 $p(\bm{x}^{(i)}, \bm{z}^{(i)}) = p(\bm{x}^{(i)}|\bm{z}^{(i)})p(\bm{z}^{(i)})$ 且 $\bm{z}^{(i)}\sim B(k, \phi)$ 代表k个高斯分布的概率，以及 $\bm{x}^{(i)}|\bm{z}^{(i)} = j \sim N(\bm\mu_j, \bm\Sigma_j)$ 代表已知的第j个高斯分布的数据概率分布。
如果 $\bm{z}^{(i)}$ 是已知的，则可以使用极大似然估计，形如 $lnL(\phi, \bm\mu, \bm\Sigma) = \sum_{i =1}^m log\ p(\bm{x}^{(i)}, \bm{z}^{(i)};\phi, \bm\mu, \bm\Sigma)$ 可以得到 $\phi_j = \sum_{i=1}^m 1\{z^{(i)} = j\}/m \\ \bm\mu_j = \sum_{i = 1}^m 1\{c^{(i)} = j\}\bm{x}^{(i)}/ \sum_{i = 1}^m 1\{c^{(i)} = j\}$ 然而 $\bm{z}^{(i)}$ 是未知的，可以考虑尝试使用模型猜测 $\bm{z}^{(i)}$ 的值，使用极大似然拟合出更好的参数的值，再去猜测 $\bm{z}^{(i)}$ 的值，并进行迭代。该算法称为最大期望算法，算法步骤如下：
（1）猜测未知的 $\bm{z}^{(i)}$ 的值；
（2）最大似然估计参数的值。
（3）迭代（1）-（2），直到收敛。
详见模式识别——EM算法。

1.3 混合高斯模型的EM算法
GMM的EM算法中，E步为 $\begin{aligned} w_j^{(i)} &= p(\bm{z}^{(i)} = j|\bm{x}^{(i)}, \phi, \bm\mu, \bm\Sigma) \\&= p(\bm{x}^{(i)}|\bm{z}^{(i)} = j)p(\bm{z}^{(i)} = j)/\sum_{l = 1}^c p(\bm{x}^{(i)}|\bm{z}^{(i)} = l)p(\bm{z}^{(i)} = l) \end{aligned}$ 其中 $\bm{x}^{(i)}|\bm{z}^{(i)} = j \sim N(\bm\mu_j, \bm\Sigma_j)$ ， $\bm{z} \sim B(c, \phi)$ 。
M步为 $max_{\phi, \bm\mu, \bm\Sigma}\ \sum_{i=1}^m \sum_{\bm{z}^{(i)}}Q_i(\bm{z}^{(i)})log(p(\bm{x}^{(i)}, \bm{z}^{(i)};\phi, \bm\mu, \bm\Sigma)/Q_i(\bm{z}^{(i)}))$ 由于 $Q_i(\bm{z}^{(i)}) = w_j^{(i)} \\ p(\bm{x}^{(i)}, \bm{z}^{(i)}) = p(\bm{x}^{(i)}|\bm{z}^{(i)})p(\bm{z}^{(i)}) \\ p(\bm{x}^{(i)}|\bm{z}^{(i)}) = 1/(2\pi)^{D/2}·1/|\Sigma_j|^{1/2}·exp\{-(\bm{x}^{(i)} - \bm\mu_j)^T\bm\Sigma^{-1}(\bm{x}^{(i)} - \bm\mu_j)/2\} \\ p(\bm{z}^{(i)}) = \phi_j$ 故M步可以写为 $max_{\phi, \bm\mu, \bm\Sigma}\ \sum_{i=1}^m \sum_{\bm{z}^{(i)}}w_j^{(i)}log(1/(2\pi)^{D/2}·1/|\Sigma_j|^{1/2}·exp\{-(\bm{x}^{(i)} - \bm\mu_j)^T\bm\Sigma^{-1}(\bm{x}^{(i)} - \bm\mu_j)/2\}\phi_j/w_j^{(i)})$ 为了令其最大，需要分别对各参数求梯度，可以得到 $\phi_j = \sum_{i=1}^m w_j^{(i)} / m \\ \bm\mu_j = \sum_{i=1}^m w_j^{(i)}\bm{x}^{(i)}/\sum_{i=1}^m \bm{x}^{(i)} \\ \bm\Sigma_j = \sum_{i=1}^m w_j^{(i)}(\bm{x}^{(i)} - \bm\mu_j)(\bm{x}^{(i)} - \bm\mu_j)^T/\sum_{i=1}^m \bm{x}^{(i)}$

二、数据分析算法
2.1 主成分分析
给定m个样本的训练集合，每个样本都是n维向量，为了得到更低维度的数据集合，使用无监督学习的主成分分析算法【Principal Component Analysis，PCA】。
PAC算法希望在对数据进行降维后，数据点尽可能的分散，以描述数据的变化情况。首先将数据归一化，包括样本均值归一化，并对样本每个维度标准差归一化，即 $\bm\mu = \sum_{i=1}^m \bm{x}^{(i)}/m \\ \bm{x}^{(i)} = \bm{x}^{(i)} - \bm\mu \\ \sigma^2_j = \sum_{i=1}^m (x_j^{(i)})^2/m \\ x^{(i)}_j = x^{(i)}_j / \sigma_j$ 再考虑单位向量 $\bm{u}$ ，那么 $\bm{x}^{(i)}$ 在 $\bm{u}$ 上的投影长度为 $\bm{x}^{(i)T}\bm{u}$ ，那么PAC可以描述为 $\begin{aligned}max\ &\sum_{i=1}^m (\bm{x}^{(i)T}\bm{u})^2/m \\ s.t.\ &||\bm{u}|| = 1\end{aligned}$ 其中 $\begin{aligned} \sum_{i=1}^m (\bm{x}^{(i)T}\bm{u})^2/m & = \sum_{i=1}^m (\bm{u}^T\bm{x}^{(i)})(\bm{x}^{(i)T}\bm{u})/m \\&= \bm{u}^T(\sum_{i=1}^m \bm{x}^{(i)}\bm{x}^{(i)T}/m)\bm{u} \end{aligned}$ 令 $\bm\Sigma = \sum_{i=1}^m \bm{x}^{(i)}\bm{x}^{(i)T}/m$ ，上述优化问题可以描述为 $\begin{aligned}max\ &\bm{u}^T\bm\Sigma\bm{u} \\ s.t.\ &\bm{u}^T\bm{u} = 1\end{aligned}$ 其拉格朗日方程为 $L(\bm{u}, \lambda) = \bm{u}^T\bm\Sigma\bm{u} - \lambda(\bm{u}^T\bm{u} - 1)$ 求导赋0，得 $▽_{\bm{u}}L = \bm\Sigma\bm{u} - \lambda\bm{u} = 0$ 故 $\bm{u}$ 是 $\bm\Sigma$ 的一个特征向量。实际上，降维的目标维度数，需要选择 $\bm\Sigma$ 的前数个主特征向量。
因此PCA算法的步骤如下：
（1）样本均值归一化，每一维度方差归一化；
（2）计算样本集合的协方差矩阵 $\bm\Sigma$ ；
（3）寻找所需目标维度数量的 $\bm\Sigma$ 的特征向量。
PCA算法的缺点在于 $\bm\Sigma$ 的尺寸问题，当样本是100x100的图像时，其有10000个维度的特征，那么 $\bm\Sigma$ 将是一个10000x10000尺寸的空间矩阵，其所需的储存空间是巨大的。因此PCA算法更适合于本文数据，并衍生出潜在语义索引【Latent Semantic Indexing，LSI】算法。

2.2 奇异值分解
上述PCA算法中的问题，可以使用奇异值分解【Singular Value Decomposition，SVD】解决。
对于矩阵 $\bm{A}_{n×n}$ ，其总能够分解为三个矩阵的乘积 $\bm{U\Sigma V}^T$ ，其中 $\bm\Sigma$ 是一个对角矩阵，其元素被称为 $\bm{A}$ 的奇异值。
考虑PCA算法中样本集合的协方差矩阵 $\bm\Sigma = \sum_{i=1}^m \bm{x}^{(i)}\bm{x}^{(i)T}/m$ 设矩阵 $\bm{X} = \left( \begin{matrix} \bm{x}^{(1)} \\ ... \\ \bm{x}^{(m)} \end{matrix} \right )$ 那么 $\bm\Sigma = \bm{X}^T\bm{X}/m$ 为了得到数个主特征值，对 $\bm{X}$ 进行奇异值分析，形如 $\bm{X} = \bm{UD V}^T$ 那么 $\bm{V}$ 的前数列就是 $\bm\Sigma$ 的数个主特征值。这是解决PCA算法高维协方差矩阵的有效方法。

2.3 独立成分分析
PCA是用于寻找数据变更的主轴的一个算法，而独立成分分析【Independent Component Analysis，ICA】尝试寻找数据变化的独立组成部分。
首先介绍累积分布函数【Cumulative Distribution Function，CDF】。考虑一维随机变量 $s$ ，其概率密度函数为 $P_s(s)$ ，那么累积分布函数为 $\le s)$ 考虑一个数据 $\bm{S}$ 由n个服从于某分布的数据源组成，其中， $\bm{S}_j^{(i)}$ 表示第j个分布的第i个数据。那么 $\bm{X}^{(i)} = \bm{A}\bm{S}^{(i)}$ 其中 $\bm{X}_j^{(i)}$ 表示第j种加权方式得到的第i个数据值。现在已知观测到了 $\bm{X}$ ，为了得到源数据 $\bm{S}$ ，需要得到 $\bm{w} = \bm{A}^{-1} = \left( \begin{matrix}\bm{w}_1^T \\ ... \\ \bm{w}_n^T \end{matrix} \right )$ 使得 $\bm{S}^{(i)} = \bm{wX}^{(i)} \\ \bm{S}_j = \bm{w}_j^T\bm{X}$ 一般来讲，如果数据是服从于高斯分布的，那么其不可能进行ICA，因为将数据旋转仍然会保持原来的高斯分布。
令 $\bm{S}$ 的概率密度为 $P_{\bm{S}}(\bm{S})$ ，那么 $\bm{X}$ 的概率密度为
$P_{\bm{X}}(\bm{X}) = P_{\bm{s}}(\bm{wX})|\bm{w}|$ 假设数据之间是独立的，即 $p(\bm{S}) = \prod_{i=1}^{n} p(\bm{S}_i)$ 那么 $p(\bm{X}) = (\prod_{i=1}^{n} p(\bm{w}_i^T\bm{X}))|\bm{w}|$ 因此需要选择每一个分布的密度 $P_{\bm{S}}(\bm{S}_i)$ ，事实上，选择其CDF是更加有效的，因为只需要选择一些函数，其单调的从0增加到1。S形函数是一种常用的函数，没有特殊的原因，仅因为方便，那么 $F(\bm{S}) = 1/(1 + exp\{-\bm{S}\}) \\ P_{\bm{S}}(\bm{S}_i) = dF/d\bm{S}_i$ 这也是公认的合理的选择。
那么给定数据集 $\{\bm{X}^{(m)}\}$ ， $\bm{w}$ 的似然函数为 $lnL(\bm{w}) = \sum_{i=1}^m log(\prod_{j = 1}^n P_{\bm{S}}(\bm{w}_j^T\bm{X}^{(i)}))|\bm{w}| \\ P_{\bm{S}}(\bm{S}) = dF/d\bm{S}$ 根据梯度下降法，有 $\bm{w} \leftarrow \bm{w} + \alpha▽_{\bm{w}}lnL(\bm{w})$ 那么 $\bm{S}^{(i)} = \bm{wX}^{(i)}$

楠兮兮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习——无监督学习与分析

一、无监督学习对于LR或SVM中的样本，都给出了正确的类标签，因此称为监督学习。当数据样本没有像监督学习那样，给出类标签或所谓的正确答案，那么需要靠算法本身发现数据中的结构，称为无监督学习。1.1 K-means算法聚类的基本思想是，对于给定的数据集合，将数据聚集成若干一致的类。典型的聚类算法是K-means，用于寻找数据集合中的类，算法步骤如下（1）从数据中初始化k个类中心点μ\bm\muμ；（2）设置第i个样本的类c(i)=argminj ∣∣x(i)−μ(j)∣∣c
复制链接

扫一扫

专栏目录