机器学习笔记之生成模型综述(三)生成模型的表示、推断、学习任务

静静的喝酒

已于 2023-02-13 15:31:23 修改

阅读量1.5k

点赞数 1

分类专栏：深度学习机器学习文章标签：学习概率论模型表示、推断、学习生成模型综述

于 2023-02-10 18:24:17 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/128957164

版权

文章详细介绍了生成模型的表示任务，包括从形状和概率分布两个角度观察，涉及概率图模型如有向图模型（贝叶斯网络、隐马尔可夫模型）和无向图模型（马尔可夫随机场、受限玻尔兹曼机）。接着讨论了生成模型的推断任务，区分了容易求解和难以求解的情况，并举例说明。最后概述了学习任务，特别是极大似然估计在模型参数学习中的应用，以及生成对抗网络作为与极大似然估计无关的模型示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习笔记之生成模型综述——表示、推断、学习任务

引言

引言

上一节介绍了从监督学习、无监督学习任务的角度介绍了经典模型。本节将从表示、推断、学习三个任务出发，继续介绍生成模型。

生成模型的表示任务

从形状的角度观察生成模型的表示任务

关于概率生成模型，从形状的角度，我们介绍更多的是概率图结构：

从概率图结构内部的随机变量结点出发，可以将随机变量划分为两种类型：
- 离散型随机变量( $\text{Discrete Random Variable}$ )
- 连续型随机变量( $\text{Continuous Random Variable}$ )
例如高斯混合模型( $\text{Gaussian Mixture Model,GMM}$ )，它的概率图结构表示如下：

其中隐变量 $\mathcal Z$ 是一个一维、离散型随机变量，它的概率分布 $\mathcal P(\mathcal Z)$ 可表示为：
这里假设 $\mathcal Z$ 服从包含 $\mathcal K$ 种分类的 $\text{Categorial}$ 分布。
$\mathcal P(\mathcal Z) = \{\mathcal P_1,\mathcal P_{2},\cdots,\mathcal P_{\mathcal K}\} \quad \sum_{k=1}^{\mathcal K} \mathcal P_{k}= 1$
当隐变量 $\mathcal Z$ 确定的条件下，对应的观测变量 $\mathcal X$ 是一个服从高斯分布( $\text{Gaussian Distribution}$ )的连续型随机变量。
关于 $\mathcal X$ 的维度，有可能是一维，也有可能是高维。均可用高斯分布进行表示。
$\mathcal P(\mathcal X \mid \mathcal Z) \sim \mathcal N(\mu_{k},\Sigma_{k}) \quad k \in \{1,2,\cdots,\mathcal K\}$
从连接随机变量结点的边观察，也可以将边划分为两种类型：
- 有向图模型( $\text{Directed Graphical Model}$ )——由有向边构成的模型，也称贝叶斯网络( $\text{Batessian Network}$ )。代表模型有隐马尔可夫模型( $\text{Hidden Markov Model,HMM}$ )，其概率图结构表示如下：
  有向图的特点是：能够直接观察出随机变量结点之间的因果关系。仅凭概率图结构就可以描述其联合概率分布的因子分解。相反，有向图内部结点的结构关系比较复杂。共包含三种结构(传送门——贝叶斯网络的结构表示)
- 无向图模型( $\text{Undirected Graphical Model}$ )——由无向边构成的模型，也称马尔可夫随机场( $\text{Markov Random Field,MRF}$ )。代表模型有受限玻尔兹曼机( $\text{Restricted Boltzmann Machine,RBM}$ )，其概率图结构表示如下：
  相比于有向图，无向图的特点是：结点内部结构关系简单，但仅能观察到结点之间存在关联关系而不是因果关系。通过极大团、势函数的方式描述联合概率分布(传送门——马尔可夫随机场的结构表示)
从随机变量结点类型的角度观察，可以将概率图模型分为两种类型：
- 隐变量模型( $\text{Latent Variable Model,LVM}$ )：概率图结构中随机变量结点既包含隐变量、也包含观测变量。上面介绍的几种都属于隐变量模型。还有其他模型如 $\text{Sigmoid}$ 信念网络等等。
  隐变量本身是被假设出来的随机变量，它本身可能不存在实际意义。
- 完全观测变量模型( $\text{Fully-Observed Model}$ )：与隐变量模型相反，该模型结构中所有随机变量结点均是观测变量，例如朴素贝叶斯分类器( $\text{Naive Bayes Classifier}$ )：
  这意味着概率图结构中的所有随机变量结点均是有真实意义的。
从概率图结构的复杂程度角度观察，可以将其划分为：
- 浅层模型( $\text{Shallow Model}$ )：这里的浅层模型是指没有产生随机变量堆叠的现象。也就是说，没有构建新的随机变量去对原有设定的随机变量进行表示。上述所有介绍的模型均属于浅层模型。
  例如：动态模型如隐马尔可夫模型，虽然它的随机变量结点是基于时间、空间角度无限延伸的，但它同样也是浅层模型。
  从浅层模型随机变量结点内部关联关系角度观察，浅层结点内部结点之间关联关系是高度固化的，或者说是稀疏( $\text{Sparse}$ )的。
  依然使用‘隐马尔可夫模型’举例，由于‘齐次马尔可夫假设’与‘观测独立性假设’的约束，某个隐变量结点只能与‘对应状态的观测变量、下个状态的隐变量’之间存在因果关系。而与其他结点无关。
- 深度生成模型( $\text{Deep Generative Model}$ )：这里的深度指的是深度学习。与上面描述相反，其主要特征是 假设新的随机变量对原有假设的随机变量进行表示。具有代表性的模型有深度信念网络( $\text{Deep Belief Network,DBN}$ )：
  相反，深度生成模型内部结构中，层与层之间的关联关系是稠密( $\text{Dense}$ )的。

从概率分布的角度观察生成模型的表示任务

在生成模型综述——生成模型介绍中介绍过，生成模型的关注点均在样本分布自身。那么关于样本分布的概率密度函数 $\mathcal P(\mathcal X)$ 内部的模型参数 $\theta$ 可分为参数化与非参数化两种类型：

之前介绍过的绝大多数模型均属于参数化模型( $\text{Parameteric Model}$ )，可以将模型参数 $\theta$ 看作是未知常量。通过对模型学习得到参数的 解或者是近似解。依然以隐马尔可夫模型为例：
其中 $\pi$ 表示初始状态 $\mathcal P(i_1)$ 的概率分布; $\mathcal A$ 表示状态转移矩阵; $\mathcal B$ 表示发射矩阵。 $\pi,a_{ij},b_j(k)$ 均属于模型参数。