参数分布估计方法(矩量法和极大似然方法)

最新推荐文章于 2023-10-28 11:04:49 发布

Cross-Entropy

最新推荐文章于 2023-10-28 11:04:49 发布

阅读量869

点赞数

分类专栏：扩散模型文章标签：概率论算法

本文链接：https://blog.csdn.net/m0_51767556/article/details/128405334

版权

扩散模型专栏收录该内容

1 篇文章 0 订阅

订阅专栏

分布的概念

首先，我们要了解一下，我们所要求的分布就是一个什么东西。

**分布的表示：**P(x)
P(x)表示该分布中采样到样本x的概率，试想如果我们知道该分布中每个样本的采样概率，那么这个分布也就可以以这种形式表示出来了。
**含参分布的表示：**P(x;θ)
其中θ 表示该分布的参数，一般这参数是待估计的，比如 P(x;θ) 可以是高斯分布， $\theta=[\mu, \sigma]$ ,就是高斯分布的均值 $\mu$ 和方差 $\sigma$ 。

要解决的问题

给定一个数据分布 $P_{data}(x)$
假设一个由参数 $θ$ 定义的数据分布 $P_G(x;θ)$ ， $\theta$ 是未知的
我们希望求得参数 $θ$ 使得 $P_G(x;θ)$ 尽可能接近 $P_{data}(x)$ 、

$P_G(x;θ)$ 是某一具体的分布（比如简单的高斯分布），而 $P_{data}(x)$ 是未知的（或者及其复杂，我们很难找到一个方式表示它），我们希望通过参数估计的方法来确定 $\theta$ ，让 $P_G(x;θ)$ 能够表示 $P_{data}(x)$ 。

解决方法一(矩量法)

用观测数据计算一阶到k阶样本矩： $m_r = \frac{1}{N} \sum_{N}^{1}X_{i}^{r}, r=1,2,…,k$ 。
令样本矩=理论矩，即得到各个估计量，例如： $\mu_1=m_1, \mu_2=m_2, \mu_k=m_k$ 以及 $\sigma=\mu_2 - \mu_1^2$

解决方法二(极大似然方法）

从 $P_{data}(x)$ 采样m个样本 ${x_1,x_2,...,x_m}$
计算采样样本的似然函数 $L=\prod_{i=1}^{m} P_{G}\left(x^{i} ; \theta\right)$
计算使得似然函数 L 最大的参数 θ ： $\theta^{*}=\arg \max _{\theta} L=\arg \max _{\theta} \prod_{i=1}^{m} P_{G}\left(x^{i} ; \theta\right)$

这里再啰嗦一下极大似然估计为什么要这么做：
$P_{data}(x)$ 可以理解成是非常复杂的分布，不可能用某个数学表达精确表示，因此我们只能通过抽象，使用一个具体的分布模型 $P_G(x;θ)$ 近似 $P_{data}(x)$
所以，求 $P_G(x;θ)$ 的参数 θ 的策略就变成了：
我们认为来自 $P_{data}(x)$ 的样本 {x1,x2,…,xm} 在 $P_G(x;θ)$ 分布中出现的概率越高，也就是 $\prod_{i=1}^{m} P_{G}\left(x^{i} ; \theta\right)$ 越大， $P_G(x;θ)$ 和 $P_{data}(x)$ 就越接近。
因此，我们期待的 θ 就是使得 $\prod_{i=1}^{m} P_{G}\left(x^{i} ; \theta\right)$ 最大的 θ .
即： $\theta^{*}=\arg \max _{\theta} L=\arg \max _{\theta} \prod_{i=1}^{m} P_{G}\left(x^{i} ; \theta\right)$

咱们继续推导：
$KaTeX parse error: No such environment: eqnarray at position 8: \begin{̲e̲q̲n̲a̲r̲r̲a̲y̲}̲ \begin{aligned…$
关于最后一步：

因为我们求取的是θ，而式 $- \int x P d a t a (x) l o g P d a t a (x) d x$ 与θ无关，因此加上这一项并不影响等式。

加上这一项是为了后面的推导，把极大似然函数的式子化简成KL散度的表达式

（公式推导接上）
$\begin{equation} \begin{aligned} \theta^{*} &=\arg \max _{\theta} L \\ & \approx \arg \max _{\text {theta }} E_{x \sim P_{\text {data }}}\left[\log P_{G}(x ; \theta)\right] \\ &=\arg \max _{\theta} \int_{x} P_{\text {data }}(x) \log P_{G}(x ; \theta) d x \\ &=\arg \max _{\theta} \int_{x} P_{\text {data }}(x) \log P_{G}(x ; \theta) d x-\int_{x} P_{\text {data }}(x) \log P_{\text {data }}(x) d x \\ &=\arg \min _{\theta} K L\left(P_{\text {data }}(x) \| P_{G}(x ; \theta)\right) \end{aligned} \end{equation}$