ML Note 3 - Unsupervised Learning

最新推荐文章于 2022-04-13 21:19:58 发布

LutingWang

最新推荐文章于 2022-04-13 21:19:58 发布

阅读量186

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/LutingWang/article/details/96503652

版权

ML 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

无监督学习中，模型的输入不再包括训练样本的期望输出。因此相应 training set 的定义变为
$\{x_1, x_2, \dots,x_m\}$

本文中其他定义和有监督学习一致。

In this set of notes, the problems are essentially finding clumps and data compression. For finding clumps, we can use k-means to find the center directly, or using EM to model the distribution of each clump. For data compression, we can use factor analysis to estimate the probability of a data being in a specific subspace, or we can find the subspace with PCA.

The k-means Clustering Algorithm
The EM Algorithm
- Mixture of Gaussians
Factor Analysis
ICA
Formula Proof

The k-means Clustering Algorithm

设样本空间有 $k$ 个簇，算法的目标是找到这些 cluster centroids
$\mu_1,\mu_2,\dots,\mu_k\in\mathbb{R}^n$

设 $c_i$ 表示样本 $x_i$ 所属簇的下标，定义 distortion function
$J(c,\mu) = \sum\limits_{i=1}^m||x_i - \mu_{c_i}||^2$

对 $J$ 应用坐标下降可以得到下面的算法
$\begin{aligned} & \text{initialize } \mu_1,\dots,\mu_k\\ & \text{repeat until stable } \{\\ & \qquad\text{for i in 1...m } \\ & \qquad\qquad c_i := \arg\min_j ||x_i-\mu_j||^2\\ & \qquad\text{for j in 1...k } \\ & \qquad\qquad C_j = \{k|c_k = j\}\\ & \qquad\qquad\mu_j := \sum_{i \in C_j} x_i / |C_j| \\ & \} \end{aligned}$

因为损失函数 $J$ 是非凸的，初始化 $\mu$ 的方法对算法的收敛性有一定影响。常用的方法是选取相距最远的样本作为初始值

选取样本空间中相聚最远的两点，作为两个初始值
当初始值个数不足 $K$ 时，选择第 $\max\limits_i \min\{ \langle x_i, x_j \rangle \vert j = 1, 2, \dots, m\}$ 个样本加入初始值

此方法有助于减少迭代次数，但是依赖于核矩阵，因此不适用 $m$ 太大的情形。另一种简单的方法是随机选取 $K$ 个不同的样本作为初始值。

The EM Algorithm

Suppose there exist some latent r.v.s $z^{(1)}, \dots, z^{(m)}$ and we wish to fit the parameters $\theta$ of a model $p (x, z)$ to the training set.

The algorithm can be stated as proof
$\begin{aligned} & \text{repeat } \{\\ & \qquad\text{E-step: for i in 1...m } \\ & \qquad\qquad Q_i(z^{(i)}) := p(z^{(i)}|x^{(i)};\theta)\\ & \qquad\text{M-step: } \\ & \qquad\qquad\theta := \arg\max_\theta \sum\limits_i \sum\limits_j Q_i(j) \log \frac{p(x^{(i)},z^{(i)}=j;\theta)}{Q_i(j)}\\ & \} \end{aligned}$

Mixture of Gaussians

Suppose there are $k$ Gaussians and each training data $x^{(i)}$ belongs to one of them. Let $z^{(i)}$ donate the class $x^{(i)}$ belongs to
$\begin{array}{rcl} z^{(i)} &\sim& Multinomial_k(\phi)\\ x^{(i)}|z^{(i)} = j &\sim& N(\mu_j, \Sigma_j) \end{array}$

We wish to model the data by specifying $p(x^{(i)}, z^{(i)})$ .

The algorithm can be stated as proof
$\begin{aligned} & \text{repeat } \{\\ & \qquad\text{E-step: for i in 1...m, for j in 1...k} \\ & \qquad\qquad w_j^{(i)}:=\frac{\phi_jp(x^{(i)}|z^{(i)}=j;\mu,\Sigma)}{\sum_{l=1}^k\phi_lp(x^{(i)}|z^{(i)}=l;\mu,\Sigma)}\\ & \qquad\text{M-step: for j in 1...k} \\ & \qquad\qquad\phi_j := \frac{1}{m}\sum_{i=1}^m w_j^{(i)}\\ & \qquad\qquad\mu_j := \frac{\sum_{i=1}^m w_j^{(i)}x^{(i)}}{\sum_{i=1}^mw_j^{(i)}}\\ & \qquad\qquad\Sigma_j := \frac{\sum_{i=1}^mw_j^{(i)}(x^{(i)}-\mu_j)(x^{(i)}-\mu_j)^T}{\sum_{i=1}^mw_j^{(i)}}\\ & \} \end{aligned}$

Factor Analysis

Consider the problem in which $\gg m$ . In such a setting, we assume that the data are generated by some latent r.v. $z$
$\mu+\Lambda z + \epsilon$

where
$\begin{array}{rcccl} \mathbb{R}^k &\ni& z &\sim& N(\vec 0, I)\\ \mathbb{R}^n &\ni& \epsilon &\sim& N(\vec 0, \Psi) \end{array}$

the value of $k$ is usually chosen to be smaller than $n$ . Parameters of our model are

vector $\mu \in \mathbb{R}^n$
matrix $\Lambda \in \mathbb{R}^{n\times k}$
diagonal matrix $\Psi \in \mathbb{R}^{n\times n}$

Since
$\left[\begin{aligned}z\\x\end{aligned}\right] \sim N(\left[\begin{aligned}\vec0\\\mu\end{aligned}\right], \left[\begin{array}{cc}I & \Lambda^T\\\Lambda & \Lambda\Lambda^T+\Psi\end{array}\right])$

parameters for $z^{(i)}|x^{(i)} \sim N(\mu_{z^{(i)}|x^{(i)}}, \Sigma_{z^{(i)}|x^{(i)}})$ are
$\begin{array}{rcl} \mu_{z^{(i)}|x^{(i)}} &=& \Lambda^T (\Lambda\Lambda^T+\Psi)^{-1}(x^{(i)}-\mu)\\ \Sigma_{z^{(i)}|x^{(i)}} &=& I - \Lambda^T(\Lambda\Lambda^T+\Psi)^{-1}\Lambda \end{array}$

To use EM algorithm, we have that proof
$\begin{array}{rcl} Q_i(z^{(i)}) &:=& p(z^{(i)}|x^{(i)};\mu,\Lambda,\Psi)\\ \Lambda &:=& (\sum\limits_{i=1}^m(x^{(i)}-\mu)E[z^{(i)}]^T)(\sum\limits_{i=1}^mE[z^{(i)}(z^{(i)})^T])\\ \mu &:=& \frac{1}{m}\sum\limits_{i=1}^mx^{(i)}\\ \Phi &:=& \frac{1}{m}\sum\limits_{i=1}^mE\Big[(x^{(i)}-\Lambda z^{(i)})(x^{(i)}-\Lambda z^{(i)})^T\Big] \end{array}$

where
$\begin{array}{rcl} E[z^{(i)}] &=& \mu_{z^{(i)}|x^{(i)}}\\ E[z^{(i)}(z^{(i)})^T] &=& \mu_{z^{(i)}|x^{(i)}}\mu^T_{z^{(i)}|x^{(i)}} + \Sigma_{z^{(i)}|x^{(i)}}\\ \Psi_{ii} = \Phi_{ii} \end{array}$

ICA

Independent components analysis finds a new basis in which to represent our data. Suppose some data $s\in\mathbb{R}^n$ is generrated via $n$ independent sources, and we observe the overlapping of them
$x = A s$

where $A$ is the mixing matrix.

Our goal is to find the unmixing matrix $W = A^{-1}$ to recover $s^{(i)}$ according to $x^{(i)}$ . Notate
$\left[\begin{array}{c} w_1\\ \vdots\\ w_n \end{array}\right]$

where $w_i \in \mathbb{R}^n$ and the $j^{th}$ source can be recovered by
$s_j^{(i)} = w_j^Tx^{(i)}$

Assume that the sources are i.i.d. conforming to logistic distribution
$p_s(s_i) = g'(s_i)$

where $\frac{1}{1+e^{-z}}$ . Then the joint distribution
$\prod\limits_{i=1}^n p_s(s_i)$

By transformation $s = W x$
$\prod\limits_{i=1}^n p_s(w_i^Tx) \cdot|W|$

Using maximum likelihood
$\sum\limits_{i=1}^m \left(\sum\limits_{j=1}^n \log g'(w_j^Tx^{(i)}) + \log|W|\right)$

we can derive the update rule for stochastic gradient ascent
$\alpha\left(\left[\begin{array}{c} 1-2g(w^T_1x^{(i)})\\ 1-2g(w^T_2x^{(i)})\\ \vdots\\ 1-2g(w^T_nx^{(i)})\\ \end{array}\right](x^{(i)})^T + (W^T)^{-1}\right)$

Formula Proof

EM Algorithm

Similar as before, we derive the likelihood
$\begin{array}{rcl} l(\theta) &=& \sum\limits_{i=1}^m \log p(x^{(i)};\theta)\\ &=& \sum\limits_{i=1}^m \log \sum\limits_j p(x^{(i)},z^{(i)} = j;\theta) \end{array}$

Assume that $z^{(i)}$ have some distribution $Q_i$ . Since
$\begin{array}{rcl} E_{z^{(i)}}\Big[\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}\Big] &=& \sum\limits_j Q_i(j)\frac{p(x^{(i)},z^{(i)} = j;\theta)}{Q_i(j)}\\ &=& \sum\limits_j p(x^{(i)},z^{(i)} = j;\theta) \end{array}$

By Jensen’s inequality
$\begin{array}{rcl} \log E_{z^{(i)}} \Big[\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}\Big] &\ge& E_{z^{(i)}} \Big[\log\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}\Big]\\\\ &=& \sum\limits_j Q_i(j)\log\frac{p(x^{(i)},z^{(i)}=j;\theta)}{Q_i(j)} \end{array}$

Therefore
$l(\theta) \ge \sum\limits_i\sum\limits_j Q_i(j)\log\frac{p(x^{(i)},z^{(i)}=j;\theta)}{Q_i(j)}$

Define the lower bound
$\theta) = \sum\limits_i\sum\limits_j Q_i(j)\log\frac{p(x^{(i)},z^{(i)}=j;\theta)}{Q_i(j)}$

We can apply coordinate ascent to maximize $J$ . W.r.t. $Q$ , in order for $l(\theta) = J(Q,\theta)$ to hold
$\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})} = c$

where $c$ does not depend on $z^{(i)}$ . Since
$\sum\limits_zQ_i(z) = 1$

we have that
$\sum\limits_z p(x^{(i)},z;\theta) = p(x^{(i)};\theta)$

Therefore
$Q_i(z^{(i)}) = \frac{p(x^{(i)},z^{(i)};\theta)}{p(x^{(i)};\theta)} = p(z^{(i)}|x^{(i)};\theta)$

Mixture of Gaussians

The E-step is easy
$\begin{array}{rcl} w_j^{(i)} &=& Q_i(z^{(i)} = j)\\\\ &=& P(z^{(i)}=j|x^{(i)};\phi,\mu,\Sigma)\\\\ &=& \frac{\phi_jp(x^{(i)}|z^{(i)}=j;\mu,\Sigma)}{\sum_{l=1}^k\phi_lp(x^{(i)}|z^{(i)}=l;\mu,\Sigma)} \end{array}$

In the M-step
$J(Q,\theta) = \sum\limits_{i=1}^m \sum\limits_{j=1}^k w_j^{(i)}\log\frac{\phi_j\exp\Big(-\frac{1}{2}(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j)\Big)}{w_j^{(i)}(2\pi)^{n/2}|\Sigma_j|^{1/2}}$

To maximize $J$ w.r.t. $\mu_j$
$\begin{aligned} & \because & \nabla_{\mu_j} J &= \sum\limits_{i=1}^m w_j^{(i)} \Sigma_j^{-1} (x^{(i)}-\mu_j) \\ & \therefore & \mu_j &:= \frac{\sum_{i=1}^m w_j^{(i)}x^{(i)}}{\sum_{i=1}^mw_j^{(i)}} \end{aligned}$

Similarly, we have that
$\Sigma_j := \frac{\sum_{i=1}^mw_j^{(i)}(x^{(i)}-\mu_j)(x^{(i)}-\mu_j)^T}{\sum_{i=1}^mw_j^{(i)}}$

For parameters $\phi_j$
$J(Q,\theta) = \sum\limits_{i=1}^m \sum\limits_{j=1}^k w_j^{(i)}\log\phi_j + c$

where $c$ does not depend on $\phi_j$ . The problem can be stated as
$\begin{array}{rl} \min\limits_{\phi} & \sum\limits_{i=1}^m \sum\limits_{j=1}^k w_j^{(i)}\log\phi_j\\ \text{s.t.} & \sum\limits_{j=1}^k\phi_j = 1 \end{array}$

Using Lagrangian
$L(\phi) = \sum\limits_{i=1}^m \sum\limits_{j=1}^k w_j^{(i)}\log\phi_j + \beta(\sum\limits_{j=1}^k\phi_j - 1)$

we have that
$\frac{\partial}{\partial\phi_j}L = \sum\limits_{i=1}^m\frac{w_j^{(i)}}{\phi_j} + \beta$

Therefore
$\phi_j \propto \sum_{i=1}^m w_j^{(i)}$

According to the constraint
$\phi_j := \frac{1}{m}\sum_{i=1}^m w_j^{(i)}$

Factor Analysis

For the M-step, the problem is to
$\begin{aligned} & \max\limits_{\mu,\Lambda,\Psi} & \sum\limits_{i=1}^m \int_{z^{(i)}}Q_i(z^{(i)}) \log\frac{p(x^{(i)},z^{(i)};\mu,\Lambda,\Psi)}{Q_i(z^{(i)})}dz^{(i)} \end{aligned}$

The object function can be written as
$\begin{aligned} & J(\mu,\Lambda,\Psi)\\ &= \sum\limits_{i=1}^m E\Big[\log\frac{ p(x^{(i)},z^{(i)};\mu,\Lambda,\Psi)}{Q_i(z^{(i)})}\Big]\\ &= \sum\limits_{i=1}^m E\Big[\log p(x^{(i)},z^{(i)};\mu,\Lambda,\Psi)+ \log p(z^{(i)}) - \log Q_i(z^{(i)})\Big]\\ \end{aligned}$

Getting rid of constants
$\begin{aligned} & J(\mu,\Lambda,\Psi)\\ &\equiv \sum\limits_{i=1}^m E\Big[\log p(x^{(i)}|z^{(i)};\mu,\Lambda,\Psi)\Big]\\ &\equiv -\frac{1}{2}\sum\limits_{i=1}^m E\Big[\log|\Psi| + (x^{(i)}-\mu-\Lambda z^{(i)})^T\Psi^{-1}(x^{(i)}-\mu-\Lambda z^{(i)})\Big] \end{aligned}$

After derivation
$\begin{array}{rcl} \nabla_\Lambda J &=& \Psi^{-1} \sum\limits_{i=1}^m E\Big[(x^{(i)}-\mu-\Lambda z^{(i)})(z^{(i)})^T \Big]\\ \nabla_\mu J &=& (\Lambda\Lambda^T+\Psi)^{-1}\sum\limits_{i=1}^m(x^{(i)}-\mu)\\ \nabla_\Psi J &=& \sum\limits_{i=1}^m E\Big[\Psi^{-1}-(x^{(i)}-\mu-\Lambda z^{(i)})^T\Psi^{-2}(x^{(i)}-\mu-\Lambda z^{(i)})\Big] \end{array}$