第十三章 线性因子模型
许多深度学习算法被设计为处理无监督学习问题,但不像深度学习已经在很大程度上解决了各种任务的监督学习问题,没有一个算法能以同样的方式真正解决无监督学习问题。
无监督学习困难的核心原因是被建模的随机变量的高维度。这带来了两个不同的挑战:统计挑战和计算挑战。
统计挑战与泛化相关:我们可能想要区分的配置数会随着感兴趣的维度数指数增长,并且这快速变得比可能具有的(或者在有限计算资源下使用的)样本数大得多。
与高维分布相关联的计算挑战之所以会出现,是因为用于学习或使用训练模型的许多算法(特别是基于估计显式概率函数的算法)涉及难处理的计算量,并且随维数呈指数增长。
使用概率模型,这种计算挑战来自执行难解的推断或归一化分布。
无监督学习常常需要建立一种依赖于观察数据的概率模型 p model ( x ) p_{\text{model}}(x) pmodel(x)。 原则上说,给定任何其他变量的情况下,这样的模型可以使用概率推断来预测其环境中的任何变量。
由于实际观察的数据 x x x常常比较杂乱没有规律,通常我们会用某种代表了更低维基本特征的潜变量(latent variables,或者说隐变量) h h h 来更好的表征数据,将问题转化为 p model ( x ) = E h p model ( x ∣ h ) p_{\text{model}}(x) = E_{h}p_{\text{model}}(x\mid h) pmodel(x)=Ehpmodel(x∣h)。 这些潜变量提供了表示数据的另一种方式。 我们在深度前馈网络和循环网络中已经发现,基于潜变量的分布式表示继承了表示学习的所有优点。
本章主要介绍了最基本的利用潜变量的概率模型——线性因子模型(Linear Factor model),即假定 h h