Ng将FA作为EM算法隐变量是连续变量的例子进行介绍,讲了很多公式推导的过程;笔者仅介绍其原理以及构造。
若我们假设数据是高斯分布
N(μ,Σ)
,利用最大似然法(maximum likelihood)得到的估计值为
其中 xi∈Rn , m 为样本数量。
当
其中 j=1⋯n 。更强的假设是 Σ=σ2I ,当然也可以通过最大似然法求解。
上诉两个假设直接假设了所有predictor之间是无关的,这通常不符合实际情况,所以上诉两个假设实际使用并不广泛,效果不佳。Factor Analysis (FA)的假设相对较弱,相对前两种模型效果有所提升;但仍然依赖于高斯分布的假设,并不流行。目前最常用的成分分析的方法有ICA以及其各种变形。
Factor Analysis的假设
假设变量
x
是隐变量
上诉是成分分析中常见的线性假设,Factor Analysis进一步假设 z∼N(0,I) ,以及 ϵ∼N(0,Ψ) ,这也是FA基于高斯分布假设的由来。
Ng之后就开始分析高斯分布的性质,然后利用EM算法对FA进行求解。这里仅稍微讨论一下上诉假设的一些小推论。
值得注意的是FA的假设使得FA的 Λ 有无穷解,因为 z∼N(0,I) 各维对称,所以可以任意变换该低维空间的基而不影响结果。具体地,任意orthonormal的方阵 R 满足