线性因子模型—花书第十三章

在深度学习中,当我们数据量不够或者想减小数据量的要求时候,可以使用无监督或半监督模型。无监督学习常常需要建立一种依赖于观察数据的概率模型Pmodel(X)。通过这个模型,给定任何其他变量,推断环境中的任何变量。通常我们会用某种代表了更低维基本特征的潜变量(latent variables) h来更好的表征数据,将问题转化为 Pmodel(x|h).这一章主要介绍了最基本的利用潜变量的概率模型——线性因子模型(Linear Factor model),即假定h取自某种先验分布h~p(h) ,对h进行线性变换并与一些随机噪声叠加可以生成我们要观察的数据,用式子表示为    

                                                x=Wh+b+noise                                             (1)

下文讨论的不同方法会选择不同的p(h)和noise分布。

1.概率PCA和因子分析

在因子分析中,潜变量的先验是一个方差为单位矩阵的高斯分布

                                                 h\sim N(h;0,I)                                                        (2)

<基础系列>1:先验概率 & 后验概率 - 知乎 (zhihu.com)

假定噪声是从对角协方差的高斯分布中抽出来的。协方差矩阵为\varphi =diag(\sigma ^{2}),其中\sigma^{^{2}}=[\sigma _{1}^{2},\sigma _{2}^{2},\sigma _{2}^{2}...,\sigma _{n}^{2}]表示一个向量,每个元素表示一个x_{i}变量的方差。因此可以看出x也服从正态分布,并满足

 关于x为什么服从这个分布可以看一下百度百科这一段:

这里x是N维随机变量,h是随机变量,X=Wh+b,并且存在协方差矩阵满足上面那个特征函数,也就是说x服从上述分布。

附多元正态分布图

在这里插入图片描述

 图源于:透彻理解多元正态分布_nstarLDS的博客-CSDN博客_多元正态分布

 PCA(主成分分析)

将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。

图源于:用最直观的方式告诉你:什么是主成分分析PCA_哔哩哔哩_bilibili

 

即PCA降维,在这里就是将不同的方差\sigma _{i}^{2}等同于同一个值。在这种情况下,将x的协方差简化为WW^{T}+\sigma ^{2}I.因此概率PCA的x服从于:

 或者等价于

     x=Wh+b+\sigma z

其中z\sim N(z;0,I)是高斯噪声。

综上概率PCA模型除了一些微小残余的重构误差(也就是PCA变化的误差),数据中的大多数变化可以由潜变量h表示。概率PCA表示找到一个方,即一个n维向量w=(w1,…,wn)T使得线性组合x=wh的某种特征最大化,也就是用h生成新的特征。

应用:数据降维、人脸识别之特征脸(Eigenfaces)

2、独立成分分析ICA

ICA是一种建模线性因子的方法,旨在将观察到的信号分离成许多潜在信号,这些潜在信号通过缩放和叠加可以恢复成观察数据。它希望这些潜在变量尽量互相独立,通常应用于将多元叠加的信号分割成各自独立的信号,例如我们有n个人同时说话,如果我们在不同位置放置n个不同的麦克风,则ICA可以检测每个麦克风的音量变化,并且分离信号,使得每个hi仅包含一个人清楚地说话声音。

具体来说,n个麦克风获得了n个混合信号x_{1},...x_{n},和n个独立信号h_{1},...,h_{n}

x_{j}=a_{j1}h_{1}+a_{j2}h_{2}+...+a_{jn}h_{n}

假设每一个x_{j}和每一个独立成分h_{i}是随机变量,观测值x_{j}(t)是随机变量的样本值。在不失一般性的情况下,我们可以假设混合变量和独立分量都具有零均值:如果不是这样的话,我们可以对观察变量x_{i}中心化,使得模型为零均值模型。上面的混合模型可以被写作:

x=Wh

把上述公式表示的统计模型称为独立成分分析或者ICA模型。它描述了观测数据是如何通过混合元素h_{i}生成的。独立成分是隐变量,也就是说它们不能被直接观测;而且混合矩阵W也被假设是未知的。所有我们能观测到的只有随机向量\mathbf{x},我们需要用它去估计W和h

ICA的出发点是非常简单的一个假设:成分h_{i}是统计独立的。而且还假设独立成分是非高斯分布的。在基础模型中,还假设混合矩阵W是方阵。当我们估算了矩阵W,那么我们可以求得它的逆,可以通过下面的时候得到独立成分:

                                                                 h=W^{-1}x           

得到独立成分后,任何一个样本就可以用h的线性组合来表示。

 ICA的p(h)是用户给定的且是非高斯的,PCA是想把有用的信息保留下来,而ICA只看重独立性。

应用:语音信号分离、特征提取、盲源信号分离、生理学数据分析。

3、慢性特征分析(SFA)

慢性特征分析主要的作用就是来识别在快速变化的时间序列里面的夹杂着的缓慢变化的特征。也就是说即使输入信号的变化很快,它也可以识别里面缓慢变化的信号。因此可以用来识别图像里面缓慢变化的物体,在计算机视觉里面有很广泛的应用,比如说车流里面的路障,人的肢体动作,识别成功后的结果可以应用在自动驾驶,智能交通,客户分析。

给定一个n维时序数据x^{1},...,x^{t},,SFA旨在找到一系列慢性特征f(x^{t})_{i}这些慢特征是按照从慢到快或者从快到慢排序的,一般而言我们认为提取后的特征中变化最慢的几个特征是最能体验数据本质特性的特征,将其保留,而变化快速的特征认为是一些噪声信号,将其舍弃。

SFA算法通常可以写成一下形式:
 

并且满足以下三个约束:

 零均值能够保证该问题具有唯一解,否则可以向所有特征值添加一个常数,并获得具有相等慢度目标值的不同解。方差为1防止所有特征趋于0,第三个公式要求学习的特征彼此线性去相关,保证不同的输出信号分量携带不同的信息,而不是简单地复制彼此。

 总的来说SFA利用具有时间序列的信号学习到慢性特征,进而由慢性特征来获得物体的其他特征。比如由于视频里面物体的位置、大小和曝光可能会随着时间变化,通常的一些视频、图像分析的方法很难准确可靠的把物体给识别出来,而SFA被提出来的目的就是要来解决这个问题的。它基于的理念就是物体的变化在视频里面通常是缓慢的,而周围的环境可能是静态的或者快速变化的,因此只要着重把视频流里面缓慢变化的信号提取出来,就可以进一步来提取物体的变化特征了。

应用:在计算机视觉领域应用较多。

4、稀疏编码

它用来寻找一组“超完备”基向量hi来更高效地表示样本数据。稀疏编码算法的目的就是找到一组基向量 ,使得我们能将输入向量表示为这些基向量的线性组合。

 x=\sum_{i=1}^{k}a_{i}h_{i}

 虽然形如主成分分析技术(PCA)能使我们方便地找到一组“完备”基向量,但是这里我们想要做的是找到一组'''“超完备”'''基向量来表示输入向量x\in R^{n }(也就是说,k > n)。超完备基的好处是它们能更有效地找出隐含在输入数据内部最基本结构与模式。比如自然图像中的基本元素可以是线或者面。然而,对于超完备基来说,另加了一个评判标准“稀疏性”。

把“稀疏性”定义为:只有很少的几个非零元素或只有很少的几个远大于零的元素。要求系数 是稀疏的意思就是说:对于一组输入向量,我们只想有尽可能少的几个系数远大于零。举个例子,一个向量的极大无关组有3个向量。那么就可以用这三个向量来表示这个向量,当然我们也可以用5个向量来表示,只不过多了两个系数而已。那么现在假设我们有十个向量,用这十个向量来表示这个向量,就要把极大无关组之外的向量的系数置0.这就是稀疏性的一个思想。

PCA的编码器是乘以权重矩阵W的参数化的编码器,稀疏编码的编码器是一个优化算法,定义如下:

 arg min_{h}\lambda \left \| h \right \|_{1}+\beta \left \| x-Wh \right \|_{2}^{2}

x-Wh表示的意思就是,在这个网络中,我们可能可以学习到样本数据的特征集h,和一个将特征集从特征空间转换到样本数据空间的基向量W,所以让输出与输入的误差和越小越好,而特征集h可能含有许多重复的,冗余的特征在里面,而这些冗余的特征在理论上我们是需要去掉的。所以用1范数来约束,它保证了特征的稀疏性。

综上,可以看出稀疏表示的好处在于降低表示复杂度,更直白的原因其实就是减少系数参数,通过稀疏表示,可以充分发挥数据所含有的信息,去掉冗余的数据信息,达到最大化利用数据,这一点是非常重要的。

应用:语音信号处理、自然图像特征提取、自然图像去噪以及模式识别

总结一下,因子分析,概率PCA,ICA,SFA即稀疏编码等线性因子模型是比较简单的学习数据的高效表征的方法,而且它们也可以扩展为之后更复杂的自编码网络以及深度概率模型,所以有必要对其有基本的理解。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值