机器学习笔记之生成模型综述——表示、推断、学习任务
引言
上一节介绍了从监督学习、无监督学习任务的角度介绍了经典模型。本节将从表示、推断、学习三个任务出发,继续介绍生成模型。
生成模型的表示任务
从形状的角度观察生成模型的表示任务
关于概率生成模型,从形状的角度,我们介绍更多的是概率图结构:
-
从概率图结构内部的随机变量结点出发,可以将随机变量划分为两种类型:
- 离散型随机变量( Discrete Random Variable \text{Discrete Random Variable} Discrete Random Variable)
- 连续型随机变量( Continuous Random Variable \text{Continuous Random Variable} Continuous Random Variable)
例如高斯混合模型( Gaussian Mixture Model,GMM \text{Gaussian Mixture Model,GMM} Gaussian Mixture Model,GMM),它的概率图结构表示如下:
其中隐变量 Z \mathcal Z Z是一个一维、离散型随机变量,它的概率分布 P ( Z ) \mathcal P(\mathcal Z) P(Z)可表示为:
这里假设
Z \mathcal Z Z服从包含
K \mathcal K K种分类的
Categorial \text{Categorial} Categorial分布。
P ( Z ) = { P 1 , P 2 , ⋯ , P K } ∑ k = 1 K P k = 1 \mathcal P(\mathcal Z) = \{\mathcal P_1,\mathcal P_{2},\cdots,\mathcal P_{\mathcal K}\} \quad \sum_{k=1}^{\mathcal K} \mathcal P_{k}= 1 P(Z)={ P1,P2,⋯,PK}k=1∑KPk=1
当隐变量 Z \mathcal Z Z确定的条件下,对应的观测变量 X \mathcal X X是一个服从高斯分布( Gaussian Distribution \text{Gaussian Distribution} Gaussian Distribution)的连续型随机变量。
关于
X \mathcal X X的维度,有可能是一维,也有可能是高维。均可用高斯分布进行表示。
P ( X ∣ Z ) ∼ N ( μ k , Σ k ) k ∈ { 1 , 2 , ⋯ , K } \mathcal P(\mathcal X \mid \mathcal Z) \sim \mathcal N(\mu_{k},\Sigma_{k}) \quad k \in \{1,2,\cdots,\mathcal K\} P(X∣Z)∼N(μk,Σk)k∈{ 1,2,⋯,K} -
从连接随机变量结点的边观察,也可以将边划分为两种类型:
- 有向图模型( Directed Graphical Model \text{Directed Graphical Model} Directed Graphical Model)——由有向边构成的模型,也称贝叶斯网络( Batessian Network \text{Batessian Network} Batessian Network)。代表模型有隐马尔可夫模型( Hidden Markov Model,HMM \text{Hidden Markov Model,HMM} Hidden Markov Model,HMM),其概率图结构表示如下:
有向图的特点是:能够直接观察出随机变量结点之间的因果关系。仅凭概率图结构就可以描述其联合概率分布的因子分解。相反,有向图内部结点的结构关系比较复杂。共包含三种结构
(传送门——贝叶斯网络的结构表示)
- 无向图模型( Undirected Graphical Model \text{Undirected Graphical Model} Undirected Graphical Model)——由无向边构成的模型,也称马尔可夫随机场( Markov Random Field,MRF \text{Markov Random Field,MRF} Markov Random Field,MRF)。代表模型有受限玻尔兹曼机( Restricted Boltzmann Machine,RBM \text{Restricted Boltzmann Machine,RBM} Restricted Boltzmann Machine,RBM),其概率图结构表示如下:
相比于有向图,无向图的特点是:结点内部结构关系简单,但仅能观察到结点之间存在关联关系而不是因果关系。通过极大团、势函数的方式描述联合概率分布
(传送门——马尔可夫随机场的结构表示)
- 有向图模型( Directed Graphical Model \text{Directed Graphical Model} Directed Graphical Model)——由有向边构成的模型,也称贝叶斯网络( Batessian Network \text{Batessian Network} Batessian Network)。代表模型有隐马尔可夫模型( Hidden Markov Model,HMM \text{Hidden Markov Model,HMM} Hidden Markov Model,HMM),其概率图结构表示如下:
-
从随机变量结点类型的角度观察,可以将概率图模型分为两种类型:
- 隐变量模型( Latent Variable Model,LVM \text{Latent Variable Model,LVM} Latent Variable Model,LVM):概率图结构中随机变量结点既包含隐变量、也包含观测变量。上面介绍的几种都属于隐变量模型。还有其他模型如 Sigmoid \text{Sigmoid} Sigmoid信念网络等等。
隐变量本身是被假设出来的随机变量,它本身可能不存在实际意义。
- 完全观测变量模型( Fully-Observed Model \text{Fully-Observed Model} Fully-Observed Model):与隐变量模型相反,该模型结构中所有随机变量结点均是观测变量,例如朴素贝叶斯分类器( Naive Bayes Classifier \text{Naive Bayes Classifier} Naive Bayes Classifier):
这意味着概率图结构中的所有随机变量结点均是有真实意义的。
- 隐变量模型( Latent Variable Model,LVM \text{Latent Variable Model,LVM} Latent Variable Model,LVM):概率图结构中随机变量结点既包含隐变量、也包含观测变量。上面介绍的几种都属于隐变量模型。还有其他模型如 Sigmoid \text{Sigmoid} Sigmoid信念网络等等。
-
从概率图结构的复杂程度角度观察,可以将其划分为:
- 浅层模型( Shallow Model \text{Shallow Model} Shallow Model): 这里的浅层模型是指没有产生随机变量堆叠的现象。也就是说,没有构建新的随机变量去对原有设定的随机变量进行表示。上述所有介绍的模型均属于浅层模型。
例如:动态模型如隐马尔可夫模型,虽然它的随机变量结点是基于时间、空间角度无限延伸的,但它同样也是浅层模型。
从浅层模型随机变量结点内部关联关系角度观察,浅层结点内部结点之间关联关系是高度固化的,或者说是稀疏( Sparse \text{Sparse} Sparse)的。
依然使用‘隐马尔可夫模型’举例,由于‘齐次马尔可夫假设’与‘观测独立性假设’的约束,某个隐变量结点只能与‘对应状态的观测变量、下个状态的隐变量’之间存在因果关系。而与其他结点无关。
- 深度生成模型( Deep Generative Model \text{Deep Generative Model} Deep Generative Model):这里的深度指的是深度学习。与上面描述相反,其主要特征是 假设新的随机变量对原有假设的随机变量进行表示。具有代表性的模型有深度信念网络( Deep Belief Network,DBN \text{Deep Belief Network,DBN} Deep Belief Network,DBN):
相反,深度生成模型内部结构中,层与层之间的关联关系是稠密( Dense \text{Dense} Dense)的。
- 浅层模型( Shallow Model \text{Shallow Model} Shallow Model): 这里的浅层模型是指没有产生随机变量堆叠的现象。也就是说,没有构建新的随机变量去对原有设定的随机变量进行表示。上述所有介绍的模型均属于浅层模型。
从概率分布的角度观察生成模型的表示任务
在生成模型综述——生成模型介绍中介绍过,生成模型的关注点均在样本分布自身。那么关于样本分布的概率密度函数 P ( X ) \mathcal P(\mathcal X) P(X)内部的模型参数 θ \theta θ可分为参数化与非参数化两种类型:
-
之前介绍过的绝大多数模型均属于参数化模型( Parameteric Model \text{Parameteric Model} Parameteric Model),可以将模型参数 θ \theta θ看作是未知常量。通过对模型学习得到参数的 解或者是近似解。依然以隐马尔可夫模型为例:
其中
π \pi π表示初始状态
P ( i 1 ) \mathcal P(i_1) P(i1)的概率分布;
A \mathcal A A表示状态转移矩阵;
B \mathcal B B表示发射矩阵。
π , a i j , b j ( k ) \pi,a_{ij},b_j(k) π,aij,bj(k)均属于模型参数。
λ = ( π , A , B ) { π = ( p 1 , p 2 , ⋯ , p K ) K × 1 T ∑ k = 1 K p k = 1 A = [ a i j ] K × K a i j = P ( i t + 1 = q j ∣ i t = q i ) ; i , j ∈ { 1 , 2 , ⋯ , K } B = [ b j ( k ) ] K × M b j ( k ) = P ( o t = v k ∣ i t = q j ) ; j ∈ { 1 , 2 , ⋯ , K } ; k ∈ { 1 , 2 , ⋯ , M }