第九章 无监督学习
第九章 无监督学习
无监督学习(Unsupervised Learning,UL)是指从无标签的数据中学习出一 些有用的模式。无监督学习算法一般直接从原始数据中学习,不借助于任何人工 给出标签或者反馈等指导信息。如果监督学习是建立输入-输出之间的映射关系, 那么无监督学习就是发现隐藏的数据中的有价值信息,包括有效的特征、类别、 结构以及概率分布等。
典型的无监督学习问题可以分为以下几类:
无监督特征学习 无监督特征学习(Unsupervised Feature Learning)是从无标签的训练数据中挖掘有效的特征或表示。无监督特征学习一般用来进行降维、数据可视化或监督学习前期的数据预处理。
概率密度估计 概率密度估计(Probabilistic Density Estimation)简称密度估计, 是根据一组训练样本来估计样本空间的概率密度。密度估计可以分为参数密度估计和非参数密度估计。参数密度估计是假设数据服从某个已知概率密度函数形式的分布(比如高斯分布),然后根据训练样本去估计概率密度函数的参数。非参数密度估计是不假设数据服从某个已知分布,只利用训练样本对密度进行估计,可以进行任意形状密度的估计。非参数密度估计的方法有直方图、核密度估计等。
聚类 聚类(Clustering)是将一组样本根据一定的准则划分到不同的组(也称为集群(Cluster))。一个比较通用的准则是组内样本的相似性要高于组间 样本的相似性。常见的聚类算法包括 K-Means 算法、谱聚类等。
这里数字是指数量级。更早的正式描述见 [Hinton 等人, 1999]。
和监督学习一样,无监督学习方法也包含三个基本要素:模型、学习准则和 优化算法。无监督学习的准则非常多,比如最大似然估计、最小重构错误等。在无监督特征学习中,经常使用的准则为最小化重构错误,同时也经常对特征进行一些约束,比如独立性、非负性或稀释性等。而在密度估计中,经常采用最大似然估计来进行学习。
本章介绍两种无监督学习问题:无监督特征学习和概率密度估计。
无监督特征学习
无监督特征学习是指从无标注的数据中自动学习有效的数据表示,从而能 够帮助后续的机器学习模型更快速地达到更好的性能。无监督特征学习主要方 法有主成分分析、稀疏编码、自编码器等。
主成分分析
稀疏编码
训练方法
稀疏编码的优点
稀疏编码的每一维都可以看作是一种特征。和基于稠密向量的分布式表 示相比,稀疏编码具有更小的计算量和更好的可解释性等优点。
计算量 稀疏性带来的最大好处就是可以极大地降低计算量。
可解释性 因为稀疏编码只有少数的非零元素,相当于将一个输入样本表示为少
数几个相关的特征。这样我们可以更好地描述其特征,并易于理解。
特征选择 稀疏性带来的另外一个好处是可以实现特征的自动选择,只选择和 输入样本最相关的少数特征,从而更高效地表示输入样本,降低噪声并减轻过拟合。
自编码器
稀疏自动编码器
自编码器除了可以学习低维编码之外,也能够学习高维的稀疏编码。假设中间隐藏层 z 的维度 p 大于输入样本 x 的维度 d,并让 z 尽量稀疏,这就是稀疏自编码器(Sparse Auto-Encoder)。和稀疏编码一样,稀疏自编码器的优点是有很高的可解释性,并同时进行了隐式的特征选择。
堆叠自编码器
对于很多数据来说,仅使用两层神经网络的自编码器还不足以获取一种好 的数据表示。为了获取更好的数据表示,我们可以使用更深层的神经网络。深层神经网络作为自编码器提取的数据表示一般会更加抽象,能够更好地捕捉到数 据的语义信息。在实践中经常使用逐层堆叠的方式来训练一个深层的自编码器, 称为堆叠自编码器(Stacked Auto-Encoder,SAE)。堆叠自编码器一般可以采 用逐层训练(Layer-Wise Training)来学习网络参数[Bengio等人,2007]。
降噪自编码器
我们使用自编码器是为了得到有效的数据表示,而有效的数据表示除了具 有最小重构错误或稀疏性等性质之外,还可以要求其具备其它性质,比如对数 据部分损坏(Partial Destruction)的鲁棒性。高维数据(比如图像)一般都具有 一定的信息冗余,比如我们可以根据一张部分破损的图像联想出其完整内容。因此,我们希望自编码器也能够从部分损坏的数据中得到有效的数据表示,并能够恢复出完整的原始信息。
概率密度估计
概率密度估计(Probabilistic Density Estimation),简称密度估计(Density Estimation),是基于一些观测样本来估计一个随机变量的概率密度函数。密度 估计在数据建模、机器学习中使用广泛。
密度估计方法可以分为两类:参数密度估计和非参数密度估计。
参数密度估计
正态分布
多项分布
在实际应用中,参数密度估计一般存在以下问题:
(1)模型选择问题:即如何选择数据分布的密度函数。实际数据的分布往往 是非常复杂的,而不是简单的正态分布或多项分布。
(2)不可观测变量问题:即我们用来训练的样本只包含部分的可观测变量, 还有一些非常关键的变量是无法观测的,这导致我们很难准确估计数据的真实 分布。
(3)维度灾难问题:即高维数据的参数估计十分困难。随着维度的增加,估计 参数所需要的样本数量指数增加。在样本不足时会出现过拟合
非参数密度估计
非参数密度估计(Nonparametric Density Estimation)是不假设数据服从某种分布,通过将样本空间划分为不同的区域并估计每个区域的概率来近似数 据的概率密度函数。
直方图方法
核方法
K 近邻方法
总结与深入阅读