机器学习笔记之配分函数(三)对比散度

静静的喝酒

已于 2022-12-20 13:56:22 修改

阅读量1.5k

点赞数 2

分类专栏：机器学习文章标签：对比散度 KL散度吉布斯采样概率模型描述

于 2022-12-07 16:37:20 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/128206884

版权

机器学习笔记之配分函数——对比散度

引言

引言

上一节介绍了随机最大似然(Stochastic Maximum Likelihood)求解最优模型参数的过程。本节将介绍对比散度(Constractive Divergence,CD)。

回顾：随机最大似然求解模型参数的过程

针对极大似然估计，使用梯度上升算法使模型参数 $\theta$ 逼近最优参数 $\hat {\theta}$ ：
$\begin{aligned} \hat \theta = \mathop{\arg\max}\limits_{\theta} \log \prod_{i=1}^N \mathcal P(x^{(i)};\theta) \\ \theta^{(t+1)} \Leftarrow \theta^{(t)} + \eta\nabla_{\theta} \mathcal L(\theta) \end{aligned}$

关于目标函数梯度 $\nabla_{\theta}\mathcal L(\theta)$ 表示如下：
$\nabla_{\theta}\mathcal L(\theta) = \mathbb E_{\mathcal P_{data}}\left[\nabla_{\theta} \log \hat {\mathcal P}(x^{(i)};\theta)\right] - \mathbb E_{\mathcal P_{model}} \left[\nabla_{\theta} \log \hat {\mathcal P}(\mathcal X;\theta)\right]$

其中：

$\mathcal P_{data}$ 表示真实分布，该分布是客观存在的，可以将样本集合 $\mathcal X$ 看作是从 $\mathcal P_{data}$ 中采出的 $N$ 个样本；
$\mathcal P_{model}$ 表示模型分布，它实际上是基于样本特征或者概率图结构假设出来的分布；
$\mathbb E_{\mathcal P_{data}} \left[\nabla_{\theta} \log \hat {\mathcal P}(x^{(i)};\theta)\right]$ 表示正相(Positive Phase)，它本质上是基于 $\mathcal P_{data}$ 的期望结果。由于样本集合 $\mathcal X$ 的特征均是可观测的，因而正相的期望求解更加简单。如：批梯度下降法(Batch Gradient Descent)；mini-Batch 梯度下降法等。
$\mathbb E_{\mathcal P_{model}} \left[\nabla_{\theta} \log \hat {\mathcal P}(\mathcal X;\theta)\right]$ 表示负相(Negative Phase)。负相难求解的原因在于：它不像 $\mathcal P_{data}$ 是恒定不变的，并拥有 $\mathcal X$ 提供采样；我们假定的 $\mathcal P_{model}$ 要逼近 $\mathcal P_{data}$ ，但随着 $\mathcal P_{model}$