机器学习笔记之配分函数——随机最大似然
引言
上一节介绍了对包含配分函数的概率分布——使用极大似然估计求解模型参数的梯度(对数似然梯度),本节将基于上述结论,介绍随机最大似然(Stochastic Maximum Likelihood)。
回顾:对数似然梯度
已知样本集合 X = { x ( i ) } i = 1 N \mathcal X = \{x^{(i)}\}_{i=1}^N X={
x(i)}i=1N,且随机变量 X = { x 1 , ⋯ , x p } \mathcal X = \{x_1,\cdots,x_p\} X={
x1,⋯,xp}在 p p p维实数域上有意义( X ∈ R p \mathcal X \in \mathbb R^p X∈Rp)。
ML Learning : \text{ML Learning : } ML Learning : 针对包含配分函数的概率模型 P ( X ; θ ) \mathcal P(\mathcal X;\theta) P(X;θ)中对模型参数 θ \theta θ进行求解。以极大似然估计为例,最优模型参数 θ ^ \hat \theta θ^表示如下:
θ ^ = arg max θ log ∏ i = 1 N P ( x ( i ) ; θ ) = arg max θ ∑ i = 1 N log [ 1 Z ( θ ) P ^ ( x ( i ) ; θ ) ] = arg max θ ∑ i = 1 N [ log P ^ ( x ( i ) ; θ ) − log Z ( θ ) ] \begin{aligned} \hat \theta & = \mathop{\arg\max}\limits_{\theta} \log \prod_{i=1}^N \mathcal P(x^{(i)};\theta) \\ & = \mathop{\arg\max}\limits_{\theta} \sum_{i=1}^N \log \left[\frac{1}{\mathcal Z(\theta)} \hat {\mathcal P}(x^{(i)};\theta)\right] \\ & = \mathop{\arg\max}\limits_{\theta} \sum_{i=1}^N \left[\log \hat {\mathcal P}(x^{(i)};\theta) - \log \mathcal Z(\theta)\right] \end{aligned} θ^=θargmaxlogi=1∏NP(x(i);θ)=θargmaxi=1∑Nlog[Z(θ)1P^(x(i);θ)]=θargmaxi=1∑N[logP^(x(i);θ)−logZ(θ)]
其中 P ^ ( X ; θ ) \hat {\mathcal P}(\mathcal X;\theta) P^(X;θ)表示不包含配分函数的概率模型结果; Z ( θ ) \mathcal Z(\theta) Z(θ)表示配分函数(Partition Function),假设 X \mathcal X X是连续型随机变量,配分函数可表示为:
Z ( θ ) = ∫ X P ^ ( X ; θ ) d X = ∫ x 1 , ⋯ , ∫ x p P ^ ( x 1 , ⋯ , x p ; θ ) d ( x 1 , ⋯ , x p ) \begin{aligned} \mathcal Z(\theta) & = \int_{\mathcal X} \hat {\mathcal P}(\mathcal X;\theta) d\mathcal X \\ & = \int_{x_1},\cdots,\int_{x_p} \hat {\mathcal P}(x_1,\cdots,x_p;\theta) \text{ } d(x_1,\cdots,x_p) \end{aligned} Z(θ)=∫XP^(X;θ)dX=∫x1,⋯,∫xpP^(x1,⋯,xp;θ) d(x1,⋯,xp)
将上式进行整理,可表示为如下表达:
{ L ( θ ) = 1 N ∑ i = 1 N log P ^ ( x ( i ) ; θ ) − log Z ( θ ) θ ^ = arg max θ L ( θ ) \begin{cases} \mathcal L(\theta) = \frac{1}{N} \sum_{i=1}^N \log \hat {\mathcal P}(x^{(i)};\theta) - \log \mathcal Z(\theta) \\ \quad \\ \hat \theta = \mathop{\arg\max}\limits_{\theta} \mathcal L(\theta) \end{cases} ⎩
⎨
⎧L(θ)=N1∑i=1NlogP^(x