第九章无监督学习

最新推荐文章于 2023-12-13 10:36:06 发布

Avery123123

最新推荐文章于 2023-12-13 10:36:06 发布

阅读量1.4k

点赞数

分类专栏：神经网络与深度学习（读书笔记）

本文链接：https://blog.csdn.net/Avery123123/article/details/104784426

版权

神经网络与深度学习（读书笔记）专栏收录该内容

10 篇文章

订阅专栏

第九章无监督学习

第九章无监督学习

第九章无监督学习

无监督学习(Unsupervised Learning，UL)是指从无标签的数据中学习出一些有用的模式。无监督学习算法一般直接从原始数据中学习，不借助于任何人工给出标签或者反馈等指导信息。如果监督学习是建立输入-输出之间的映射关系，那么无监督学习就是发现隐藏的数据中的有价值信息，包括有效的特征、类别、结构以及概率分布等。

典型的无监督学习问题可以分为以下几类:

无监督特征学习 无监督特征学习(Unsupervised Feature Learning)是从无标签的训练数据中挖掘有效的特征或表示。无监督特征学习一般用来进行降维、数据可视化或监督学习前期的数据预处理。

概率密度估计 概率密度估计(Probabilistic Density Estimation)简称密度估计，是根据一组训练样本来估计样本空间的概率密度。密度估计可以分为参数密度估计和非参数密度估计。参数密度估计是假设数据服从某个已知概率密度函数形式的分布(比如高斯分布)，然后根据训练样本去估计概率密度函数的参数。非参数密度估计是不假设数据服从某个已知分布，只利用训练样本对密度进行估计，可以进行任意形状密度的估计。非参数密度估计的方法有直方图、核密度估计等。

聚类聚类(Clustering)是将一组样本根据一定的准则划分到不同的组(也称为集群(Cluster))。一个比较通用的准则是组内样本的相似性要高于组间样本的相似性。常见的聚类算法包括 K-Means 算法、谱聚类等。
这里数字是指数量级。更早的正式描述见 [Hinton 等人， 1999]。

和监督学习一样，无监督学习方法也包含三个基本要素:模型、学习准则和 优化算法。无监督学习的准则非常多，比如最大似然估计、最小重构错误等。在无监督特征学习中，经常使用的准则为最小化重构错误，同时也经常对特征进行一些约束，比如独立性、非负性或稀释性等。而在密度估计中，经常采用最大似然估计来进行学习。

本章介绍两种无监督学习问题:无监督特征学习和概率密度估计。

无监督特征学习

无监督特征学习是指从无标注的数据中自动学习有效的数据表示，从而能够帮助后续的机器学习模型更快速地达到更好的性能。无监督特征学习主要方法有主成分分析、稀疏编码、自编码器等。

主成分分析

在这里插入图片描述

稀疏编码

在这里插入图片描述

训练方法

在这里插入图片描述

稀疏编码的优点

稀疏编码的每一维都可以看作是一种特征。和基于稠密向量的分布式表示相比，稀疏编码具有更小的计算量和更好的可解释性等优点。

计算量 稀疏性带来的最大好处就是可以极大地降低计算量。

可解释性 因为稀疏编码只有少数的非零元素，相当于将一个输入样本表示为少
数几个相关的特征。这样我们可以更好地描述其特征，并易于理解。

特征选择 稀疏性带来的另外一个好处是可以实现特征的自动选择，只选择和输入样本最相关的少数特征，从而更高效地表示输入样本，降低噪声并减轻过拟合。

自编码器

在这里插入图片描述

稀疏自动编码器

自编码器除了可以学习低维编码之外，也能够学习高维的稀疏编码。假设中间隐藏层 z 的维度 p 大于输入样本 x 的维度 d，并让 z 尽量稀疏，这就是稀疏自编码器(Sparse Auto-Encoder)。和稀疏编码一样，稀疏自编码器的优点是有很高的可解释性，并同时进行了隐式的特征选择。
在这里插入图片描述

堆叠自编码器

对于很多数据来说，仅使用两层神经网络的自编码器还不足以获取一种好的数据表示。为了获取更好的数据表示，我们可以使用更深层的神经网络。深层神经网络作为自编码器提取的数据表示一般会更加抽象，能够更好地捕捉到数据的语义信息。在实践中经常使用逐层堆叠的方式来训练一个深层的自编码器，称为堆叠自编码器(Stacked Auto-Encoder，SAE)。堆叠自编码器一般可以采用逐层训练(Layer-Wise Training)来学习网络参数[Bengio等人，2007]。

降噪自编码器

我们使用自编码器是为了得到有效的数据表示，而有效的数据表示除了具有最小重构错误或稀疏性等性质之外，还可以要求其具备其它性质，比如对数据部分损坏(Partial Destruction)的鲁棒性。高维数据(比如图像)一般都具有一定的信息冗余，比如我们可以根据一张部分破损的图像联想出其完整内容。因此，我们希望自编码器也能够从部分损坏的数据中得到有效的数据表示，并能够恢复出完整的原始信息。
在这里插入图片描述

概率密度估计

概率密度估计(Probabilistic Density Estimation)，简称密度估计(Density Estimation)，是基于一些观测样本来估计一个随机变量的概率密度函数。密度估计在数据建模、机器学习中使用广泛。

密度估计方法可以分为两类:参数密度估计和非参数密度估计。

参数密度估计

在这里插入图片描述

正态分布

在这里插入图片描述

多项分布

在这里插入图片描述

在实际应用中，参数密度估计一般存在以下问题：
(1)模型选择问题:即如何选择数据分布的密度函数。实际数据的分布往往是非常复杂的，而不是简单的正态分布或多项分布。
(2)不可观测变量问题:即我们用来训练的样本只包含部分的可观测变量，还有一些非常关键的变量是无法观测的，这导致我们很难准确估计数据的真实分布。
(3)维度灾难问题:即高维数据的参数估计十分困难。随着维度的增加，估计参数所需要的样本数量指数增加。在样本不足时会出现过拟合