《神经网络与深度学习》-无监督学习

最新推荐文章于 2024-06-06 00:53:38 发布

你电吴彦祖

最新推荐文章于 2024-06-06 00:53:38 发布

阅读量5.5k

点赞数 6

分类专栏：《神经网络与深度学习》文章标签：深度学习

本文链接：https://blog.csdn.net/Passenger_zhang/article/details/107409467

版权

无监督学习

无监督学习（Unsupervised Learning，UL）是指从无标签的数据中学习出有用的模式，无监督学习算法一般直接从原始数据中学习，不需要标签。若监督学习是建立输入-输出之间的映射关系，那么无监督学习就是发现隐藏的数据中的有价值信息：有效特征、类别、结构、概率分布等。
主要的几种无监督学习：

无监督特征学习（Unsupervised Feature Learning）是从无标签的训练数据中，挖掘有效的特征或表示，无监督特征学习一般用来进行降维、数据可视化、监督学习前期的数据预处理。
概率密度估计（Probabilistic Density Estimation）简称密度估计，是根据一组训练样本来估计样本空间的概率密度，密度估计由分为：参数密度估计、非参数密度估计。参数密度估计是建设训练样本服从某个已知概率密度形式的分布（如高斯分布），然后去学习概率密度的参数。非参数密度估计是不假设数据服从某个已知分布，只利用训练样本对密度进行估计，可进行任性形状的密度估计，常见方法有直方图、核密度估计等。
聚类（Clustering）是将一组样本数据根据一定的准则划分到不同的组（集群（Cluster））。一个比较通用的准则是组内样本相似度要高于组间样本的相似度。常见的聚类算法：K-Means、谱聚类。

无监督学习方法也包含三个基本要素：模型、学习准则、优化算法。学习准则有最大似然估计、最下重构错误等。
无监督特征学习中，常用学习准则为最小化重构错误、同时也经常对特征进行一些约束：独立性、非负性、稀释性等；
密度估计中，常用学习准则为最大似然估计。

1. 无监督特征学习

无监督特征学习，旨在无标注的数据汇总学习有效数据表示。无监督特征学习主要方法有主成分分析、稀疏编码、自编码器

1.1 主成分分析

主成分分析（Principal Component Analysis，PCA）常用来数据降维，在转换后的空间中数据的方差最大。如图所示二维数据，将数据投影到一维空间中，选择数据方差最大的方向进行投影，能最大化数据差异性，保留更多的原始数据信息。
在这里插入图片描述
假设一组 D 维的样本 $\pmb{x} \in \R^D, 1 \leq n \leq N$ ，将其投影到 1 维空间中，投影向量为 $\pmb{w} \in \R^D$ 。不失一般性，我们限制 $\pmb{w}$ 的模为1，即 $\pmb{w}^T\pmb{w} = 1$ 。每个样本点 $\pmb{x}^{(n)}$ 投影之后的表示为：

$z^{(n)} = \pmb{w}^T\pmb{x}^{(n)}$
用矩阵 $\pmb{X} = [\pmb{x}^{(1)},\pmb{x}^{(2)},\cdots,\pmb{x}^{(n)}]$ 表示输入样本， $\overline{\pmb{x}} = \frac{1}{N}\sum^{N}_{n=1}\pmb{x}^{(n)}$ 为原来样本的中心点，所有样本投影后的方差为：
在这里插入图片描述
其中 $\overline{X} = \overline{\pmb{x}}1_D^T$ 是向量 $\overline{\pmb{x}}$ 和 D 维全1向量 $1_D$ 的外积，即有 D 列 $\overline{\pmb{x}}$ 组成的矩阵， $\sum = \frac{1}{N}(\pmb{X}-\overline{\pmb{X}})(\pmb{X}-\overline{\pmb{X}})^T$ 是原始样本的协方差矩阵。
最大化投影方差 $\sigma(\pmb{X};\pmb{w})$ 并满足 $\pmb{w}^T\pmb{w} = 1$ ，利用拉格朗日方法转化为无约束优化问题：

$\max_{w} \pmb{w}^T\sum\pmb{w} + \lambda(1-\pmb{w}^T\pmb{w})$

最低0.47元/天解锁文章

你电吴彦祖

关注

6
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
《神经网络与深度学习》-无监督学习

无监督学习1. 无监督特征学习1.1 主成分分析1.2 稀疏编码1.2.1 训练方法1.2.2 稀疏编码的优点1.3 自编码器1.4 稀疏自编码器1.5 堆叠自编码器1.6 降噪自编码器2. 概率密度估计2.1 参数密度估计2.1.1 正太分布2.1.2 多项分布2.2 非参数密度估计2.2.1 直方图法2.2.2 核方法2.2.3 K近邻方法无监督学习（Unsupervised Learning，UL）是指从无标签的数据中学习出有用的模式，无监督学习算法一般直接从原始数据中学习，不需要标签。若监督学
复制链接

扫一扫

专栏目录