第九章 无监督学习

第九章 无监督学习

无监督学习(Unsupervised Learning,UL)是指从无标签的数据中学习出一 些有用的模式。无监督学习算法一般直接从原始数据中学习,不借助于任何人工 给出标签或者反馈等指导信息。如果监督学习是建立输入-输出之间的映射关系, 那么无监督学习就是发现隐藏的数据中的有价值信息,包括有效的特征、类别、 结构以及概率分布等。

典型的无监督学习问题可以分为以下几类:

无监督特征学习 无监督特征学习(Unsupervised Feature Learning)是从无标签的训练数据中挖掘有效的特征或表示。无监督特征学习一般用来进行降维、数据可视化或监督学习前期的数据预处理。

概率密度估计 概率密度估计(Probabilistic Density Estimation)简称密度估计, 是根据一组训练样本来估计样本空间的概率密度。密度估计可以分为参数密度估计非参数密度估计。参数密度估计是假设数据服从某个已知概率密度函数形式的分布(比如高斯分布),然后根据训练样本去估计概率密度函数的参数。非参数密度估计是不假设数据服从某个已知分布,只利用训练样本对密度进行估计,可以进行任意形状密度的估计。非参数密度估计的方法有直方图、核密度估计等。

聚类 聚类(Clustering)是将一组样本根据一定的准则划分到不同的组(也称为集群(Cluster))。一个比较通用的准则是组内样本的相似性要高于组间 样本的相似性。常见的聚类算法包括 K-Means 算法、谱聚类等。
这里数字是指数量级。更早的正式描述见 [Hinton 等人, 1999]。

和监督学习一样,无监督学习方法也包含三个基本要素:模型学习准则优化算法。无监督学习的准则非常多,比如最大似然估计、最小重构错误等。在无监督特征学习中,经常使用的准则为最小化重构错误,同时也经常对特征进行一些约束,比如独立性、非负性或稀释性等。而在密度估计中,经常采用最大似然估计来进行学习。

本章介绍两种无监督学习问题:无监督特征学习和概率密度估计。

无监督特征学习

无监督特征学习是指从无标注的数据中自动学习有效的数据表示,从而能 够帮助后续的机器学习模型更快速地达到更好的性能。无监督特征学习主要方 法有主成分分析、稀疏编码、自编码器等。

主成分分析

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

稀疏编码

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

训练方法

在这里插入图片描述

稀疏编码的优点

稀疏编码的每一维都可以看作是一种特征。和基于稠密向量的分布式表 示相比,稀疏编码具有更小的计算量和更好的可解释性等优点。

计算量 稀疏性带来的最大好处就是可以极大地降低计算量。

可解释性 因为稀疏编码只有少数的非零元素,相当于将一个输入样本表示为少
数几个相关的特征。这样我们可以更好地描述其特征,并易于理解。

特征选择 稀疏性带来的另外一个好处是可以实现特征的自动选择,只选择和 输入样本最相关的少数特征,从而更高效地表示输入样本,降低噪声并减轻过拟合。

自编码器

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

稀疏自动编码器

自编码器除了可以学习低维编码之外,也能够学习高维的稀疏编码。假设中间隐藏层 z 的维度 p 大于输入样本 x 的维度 d,并让 z 尽量稀疏,这就是稀疏自编码器(Sparse Auto-Encoder)。和稀疏编码一样,稀疏自编码器的优点是有很高的可解释性,并同时进行了隐式的特征选择。
在这里插入图片描述

堆叠自编码器

对于很多数据来说,仅使用两层神经网络的自编码器还不足以获取一种好 的数据表示。为了获取更好的数据表示,我们可以使用更深层的神经网络。深层神经网络作为自编码器提取的数据表示一般会更加抽象,能够更好地捕捉到数 据的语义信息。在实践中经常使用逐层堆叠的方式来训练一个深层的自编码器, 称为堆叠自编码器(Stacked Auto-Encoder,SAE)。堆叠自编码器一般可以采 用逐层训练(Layer-Wise Training)来学习网络参数[Bengio等人,2007]。

降噪自编码器

我们使用自编码器是为了得到有效的数据表示,而有效的数据表示除了具 有最小重构错误或稀疏性等性质之外,还可以要求其具备其它性质,比如对数 据部分损坏(Partial Destruction)的鲁棒性。高维数据(比如图像)一般都具有 一定的信息冗余,比如我们可以根据一张部分破损的图像联想出其完整内容。因此,我们希望自编码器也能够从部分损坏的数据中得到有效的数据表示,并能够恢复出完整的原始信息。
在这里插入图片描述

概率密度估计

概率密度估计(Probabilistic Density Estimation),简称密度估计(Density Estimation),是基于一些观测样本来估计一个随机变量的概率密度函数。密度 估计在数据建模、机器学习中使用广泛。

密度估计方法可以分为两类:参数密度估计非参数密度估计

参数密度估计

在这里插入图片描述

正态分布

在这里插入图片描述

多项分布

在这里插入图片描述
在这里插入图片描述
在实际应用中,参数密度估计一般存在以下问题:
(1)模型选择问题:即如何选择数据分布的密度函数。实际数据的分布往往 是非常复杂的,而不是简单的正态分布或多项分布。
(2)不可观测变量问题:即我们用来训练的样本只包含部分的可观测变量, 还有一些非常关键的变量是无法观测的,这导致我们很难准确估计数据的真实 分布。
(3)维度灾难问题:即高维数据的参数估计十分困难。随着维度的增加,估计 参数所需要的样本数量指数增加。在样本不足时会出现过拟合

非参数密度估计

非参数密度估计(Nonparametric Density Estimation)是不假设数据服从某种分布,通过将样本空间划分为不同的区域并估计每个区域的概率来近似数 据的概率密度函数。
在这里插入图片描述
在这里插入图片描述

直方图方法

在这里插入图片描述
在这里插入图片描述

核方法

在这里插入图片描述
在这里插入图片描述

K 近邻方法

在这里插入图片描述

总结与深入阅读

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值