从生成模型到GDA再到GMM和EM算法

最新推荐文章于 2024-04-25 09:28:27 发布

潘小榭

最新推荐文章于 2024-04-25 09:28:27 发布

阅读量1.8k

点赞数 2

分类专栏： machine learning 文章标签：算法

本文链接：https://blog.csdn.net/panxiaoxie/article/details/79643369

版权

在学习生成模型之前，先学习了解下密度估计和高斯混合模型。为什么呢？因为后面的VAE\GANs模型都需要把训练样本，也就是输入的图像样本看作是一个复杂的、多维的分布。

1. 知乎上关于图像频率的解释

作者：耳东陈
链接：https://www.zhihu.com/question/20099543/answer/13971906
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

首先说说图像频率的物理意义。图像可以看做是一个定义为二维平面上的信号，该信号的幅值对应于像素的灰度（对于彩色图像则是RGB三个分量），如果我们仅仅考虑图像上某一行像素，则可以将之视为一个定义在一维空间上信号，这个信号在形式上与传统的信号处理领域的时变信号是相似的。不过是一个是定义在空间域上的，而另一个是定义在时间域上的。所以图像的频率又称为空间频率，它反映了图像的像素灰度在空间中变化的情况。例如，一面墙壁的图像，由于灰度值分布平坦，其低频成分就较强，而高频成分较弱；而对于国际象棋棋盘或者沟壑纵横的卫星图片这类具有快速空间变化的图像来说，其高频成分会相对较强，低频则较弱（注意，是相对而言）。再来谈一谈如何定量的测量图像的空间频率，最为常用的方法就是二维傅里叶变换。图像经过二维傅里叶变换后会形成与图像等大的复数矩阵，取其幅值形成幅度谱，取其相位形成相位谱。图像的频率能量分布主要体现在幅度谱中。通常习惯将低频成分放在幅度谱的中央，而将高频成分放在幅度谱边缘。大多数自然图像的幅度谱在统计上呈现1/f^2分布，也就是频率成分的能量与频率的平方成反比。所以从绝对数值上看，低频能量通常是要高于高频能量的，这一规则也称为power law。power law并非是上帝的无心之作，事实上power law的出现时源于自然图像的尺度不变性（scale invariance）。这一点在很多文献中被解释为从不同的距离观察同样的自然场景，获得的图像的幅度谱是基本相同的。相关内容可以搜索关键字power law & natural image statistics。除了傅里叶变换外，正弦变换、余弦变换、Gabor变换、小波变换、WH变换也可以用来对图像频率分布进行定量测量。目前小波变换是研究的热点，因为小波变换不但能够反映频率能量的分布，同时还保留了图像特征的空间分布特性。

2. 生成学习算法(cs229,Ng)

2.1 生成算法和判别算法的区别

举个栗子：

我们要区分elephants(y=1)和dogs(y=0)

对判别模型（discriminative），以logistic回归为例：
- logistic回归模型： $p(y|x;\theta)$ , $h_{\theta}=g(\theta^Tx)$ 其中g是sigmoid函数。通过logistic回归，我们找到一条决策边界decision boundary，能够区分elephants和dogs.
而对于生成模型（generative）：
- 模型：p(x|y)，在给定了样本所属的类的条件下，对样本特征建立概率模型。
- p(x|y=1)是elephants的分类特征模型
- p(x|y=0)是dogs的分类特征模型
已知p(y)是先验类别的分布，生成模型p(x|y)可通过学习得到，则根据Bayes公式，可以推导出后验概率分布,即通过特征数据进行预测

$p (y = 1 | x) = p ( x | y = 1 ) p ( x ) p ( x )$ $p(y=1|x) = \dfrac{p(x|y=1)p(x)}{p(x)}$
其中分母可以这么计算得到 $p(x) = p(y=0|x)p(x)+p(y=1|x)p(x)$ ，
但p(y)和p(x|y)我们已经知道了，那么可以不用计算p(x),计算方法如下：

$a r g max y p (y | x) = a r g max y p ( x | y ) p ( y ) p ( x ) = a r g max y p (x | y) p (y)$ $arg\max_yp(y|x) = arg\max_{y}\dfrac{p(x|y)p(y)}{p(x)}= arg\max_{y}p(x|y)p(y)$

总结下就是：
- 生成模型：一般是学习一个代表目标的模型，然后通过它去搜索图像区域，然后最小化重构误差。类似于生成模型描述一个目标，然后就是模式匹配了，在图像中找到和这个模型最匹配的区域，就是目标了。

判别模型：以分类问题为例，然后找到目标和背景的决策边界。它不管目标是怎么描述的，那只要知道目标和背景的差别在哪，然后你给一个图像，它看它处于边界的那一边，就归为哪一类。
由生成模型可以得到判别模型，但由判别模型得不到生成模型。

然鹅，生成模型p(x|y)怎么得到呢？不慌，我们先了解下多维正态分布～

2.2 多维正态分布(the multivariate nirmal distribution)

这里写图片描述

关于一维正态分布怎么推导出多维正态分布的概率密度函数，可参考知乎:多维高斯分布是如何由一维发展而来的？

首先一维正态分布:

$p(x) = \dfrac{1}{\sqrt{2\pi}}exp(\dfrac{-x^2}{2})$

二维标准正态分布，就是两个独立的一维标准正态分布随机变量的联合分布：

$p(x,y) = p(x)p(y)=\dfrac{1}{2\pi}exp(-\dfrac{x^2+y^2}{2})$

把两个随机变量组合成一个随机向量： $v=[x\quad y]^T$

$p(v)=\dfrac{1}{2\pi}exp(-\dfrac{1}{2}v^Tv)\quad$ 显然x,y相互独立的话，就是上面的二维标准正态分布公式～

然后从标准正态分布推广到一般正态分布，通过一个线性变化： $v=A(x-\mu)$

$p(x)=\dfrac{|A|}{2\pi}exp[-\dfrac{1}{2}(x-\mu)^TA^TA(x-\mu)]$

注意前面的系数多了一个|A|（A的行列式）。

可以证明这个分布的均值为 $\mu$ ，协方差为 $(A^TA)^{-1}$ 。记 $\Sigma = (A^TA)^{-1}$ ，那就有

p (x) = 1 2 π | Σ | 1 / 2 exp [- 1 2 (x - μ) T Σ - 1 (x - μ)]

$p(\mathbf{x}) = \frac{1}{2\pi|\Sigma|^{1/2}} \exp \left[ -\frac{1}{2} (\mathbf{x} - \mu) ^T \Sigma^{-1} (\mathbf{x} - \mu) \right]$

推广到n维：

p (x) = 1 ( 2 π ) n / 2 | Σ | 1 / 2 exp [- 1 2 (x - μ) T Σ - 1 (x - μ)]

$p(\mathbf{x}) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} \exp \left[ -\frac{1}{2} (\mathbf{x} - \mu) ^T \Sigma^{-1} (\mathbf{x} - \mu) \right]$

需要注意的是：这里的二维、n维到底指的是什么？
- 以飞机检测的数据点为例，假设它由heat和time决定，那么这就是个二维正态分布，数据点的生成所处的位置由其概率决定，也就是 $p(\mathbf{x})$
- 如果这个数据有n个特征，那么其分布就是n维正态分布。
- 之前一直理解的是，n维正态分布是两个向量巴拉巴拉。。好像一直没搞懂。。

再顺便了解下协方差矩阵吧～

2.3 关于协方差矩阵，参考blog

对多维随机变量 $X=[X_1,X_2,…,X_n]^T$ ，我们往往需要计算各维度之间的协方差，这样协方差就组成了一个n×n的矩阵，称为协方差矩阵。协方差矩阵是一个对角矩阵，对角线上的元素是各维度上随机变量的方差,非对角线元素是维度之间的协方差。我们定义协方差为 $\Sigma$ , 矩阵内的元素 $\Sigma_{ij}$ 为:

Σ i j = c o v (X i, X j) = E [(X i - E (X i)) (X j - E (X j))]

$\Sigma_{ij} = cov(X_i,X_j) = E[(X_i - E(X_i)) (X_j - E(X_j))]$

则协方差矩阵为:

Σ = E [(

最低0.47元/天解锁文章

潘小榭

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从生成模型到GDA再到GMM和EM算法

在学习生成模型之前，先学习了解下密度估计和高斯混合模型。为什么呢？因为后面的VAE\GANs模型都需要把训练样本，也就是输入的图像样本看作是一个复杂的、多维的分布。1. 知乎上关于图像频率的解释作者：耳东陈链接：https://www.zhihu.com/question/20099543/answer/13971906 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请
复制链接

扫一扫