分布的概念
首先,我们要了解一下,我们所要求的分布就是一个什么东西。
**分布的表示:**P(x)
P(x)表示该分布中采样到样本x的概率,试想如果我们知道该分布中每个样本的采样概率,那么这个分布也就可以以这种形式表示出来了。
**含参分布的表示:**P(x;θ)
其中θ 表示该分布的参数,一般这参数是待估计的,比如 P(x;θ) 可以是高斯分布,
θ
=
[
μ
,
σ
]
\theta=[\mu, \sigma]
θ=[μ,σ],就是高斯分布的均值
μ
\mu
μ和方差
σ
\sigma
σ。
要解决的问题
-
给定一个数据分布 P d a t a ( x ) P_{data}(x) Pdata(x)
-
假设一个由参数 θ θ θ定义的数据分布 P G ( x ; θ ) P_G(x;θ) PG(x;θ), θ \theta θ是未知的
-
我们希望求得参数 θ θ θ使得 P G ( x ; θ ) P_G(x;θ) PG(x;θ)尽可能接近 P d a t a ( x ) P_{data}(x) Pdata(x)、
P G ( x ; θ ) P_G(x;θ) PG(x;θ)是某一具体的分布(比如简单的高斯分布),而 P d a t a ( x ) P_{data}(x) Pdata(x)是未知的(或者及其复杂,我们很难找到一个方式表示它),我们希望通过参数估计的方法来确定 θ \theta θ,让 P G ( x ; θ ) P_G(x;θ) PG(x;θ)能够表示 P d a t a ( x ) P_{data}(x) Pdata(x)。
解决方法一(矩量法)
- 用观测数据计算一阶到k阶样本矩: m r = 1 N ∑ N 1 X i r , r = 1 , 2 , … , k m_r = \frac{1}{N} \sum_{N}^{1}X_{i}^{r}, r=1,2,…,k mr=N1∑N1Xir,r=1,2,…,k。
- 令样本矩=理论矩,即得到各个估计量,例如: μ 1 = m 1 , μ 2 = m 2 , μ k = m k \mu_1=m_1, \mu_2=m_2, \mu_k=m_k μ1=m1,μ2=m2,μk=mk以及 σ = μ 2 − μ 1 2 \sigma=\mu_2 - \mu_1^2 σ=μ2−μ12
解决方法二(极大似然方法)
- 从 P d a t a ( x ) P_{data}(x) Pdata(x)采样m个样本 x 1 , x 2 , . . . , x m {x_1,x_2,...,x_m} x1,x2,...,xm
- 计算采样样本的似然函数 L = ∏ i = 1 m P G ( x i ; θ ) L=\prod_{i=1}^{m} P_{G}\left(x^{i} ; \theta\right) L=∏i=1mPG(xi;θ)
- 计算使得似然函数 L 最大的参数 θ : θ ∗ = arg max θ L = arg max θ ∏ i = 1 m P G ( x i ; θ ) \theta^{*}=\arg \max _{\theta} L=\arg \max _{\theta} \prod_{i=1}^{m} P_{G}\left(x^{i} ; \theta\right) θ∗=argmaxθL=argmaxθ∏i=1mPG(xi;θ)
这里再啰嗦一下极大似然估计为什么要这么做:
P d a t a ( x ) P_{data}(x) Pdata(x)可以理解成是非常复杂的分布,不可能用某个数学表达精确表示,因此我们只能通过抽象,使用一个具体的分布模型 P G ( x ; θ ) P_G(x;θ) PG(x;θ)近似 P d a t a ( x ) P_{data}(x) Pdata(x)
所以,求 P G ( x ; θ ) P_G(x;θ) PG(x;θ)的参数 θ 的策略就变成了:
我们认为来自 P d a t a ( x ) P_{data}(x) Pdata(x)的样本 {x1,x2,…,xm} 在 P G ( x ; θ ) P_G(x;θ) PG(x;θ)分布中出现的概率越高,也就是 ∏ i = 1 m P G ( x i ; θ ) \prod_{i=1}^{m} P_{G}\left(x^{i} ; \theta\right) ∏i=1mPG(xi;θ)越大, P G ( x ; θ ) P_G(x;θ) PG(x;θ)和 P d a t a ( x ) P_{data}(x) Pdata(x)就越接近。
因此,我们期待的 θ 就是使得 ∏ i = 1 m P G ( x i ; θ ) \prod_{i=1}^{m} P_{G}\left(x^{i} ; \theta\right) ∏i=1mPG(xi;θ)最大的 θ .
即: θ ∗ = arg max θ L = arg max θ ∏ i = 1 m P G ( x i ; θ ) \theta^{*}=\arg \max _{\theta} L=\arg \max _{\theta} \prod_{i=1}^{m} P_{G}\left(x^{i} ; \theta\right) θ∗=argmaxθL=argmaxθ∏i=1mPG(xi;θ)
咱们继续推导:
KaTeX parse error: No such environment: eqnarray at position 8: \begin{̲e̲q̲n̲a̲r̲r̲a̲y̲}̲ \begin{aligned…
关于最后一步:
因为我们求取的是θ,而式 − ∫ x P d a t a ( x ) l o g P d a t a ( x ) d x −∫xPdata(x)logPdata(x)dx −∫xPdata(x)logPdata(x)dx与θ无关,因此加上这一项并不影响等式。
加上这一项是为了后面的推导,把极大似然函数的式子化简成KL散度的表达式
(公式推导接上)
θ
∗
=
arg
max
θ
L
≈
arg
max
theta
E
x
∼
P
data
[
log
P
G
(
x
;
θ
)
]
=
arg
max
θ
∫
x
P
data
(
x
)
log
P
G
(
x
;
θ
)
d
x
=
arg
max
θ
∫
x
P
data
(
x
)
log
P
G
(
x
;
θ
)
d
x
−
∫
x
P
data
(
x
)
log
P
data
(
x
)
d
x
=
arg
min
θ
K
L
(
P
data
(
x
)
∥
P
G
(
x
;
θ
)
)
\begin{equation} \begin{aligned} \theta^{*} &=\arg \max _{\theta} L \\ & \approx \arg \max _{\text {theta }} E_{x \sim P_{\text {data }}}\left[\log P_{G}(x ; \theta)\right] \\ &=\arg \max _{\theta} \int_{x} P_{\text {data }}(x) \log P_{G}(x ; \theta) d x \\ &=\arg \max _{\theta} \int_{x} P_{\text {data }}(x) \log P_{G}(x ; \theta) d x-\int_{x} P_{\text {data }}(x) \log P_{\text {data }}(x) d x \\ &=\arg \min _{\theta} K L\left(P_{\text {data }}(x) \| P_{G}(x ; \theta)\right) \end{aligned} \end{equation}
θ∗=argθmaxL≈argtheta maxEx∼Pdata [logPG(x;θ)]=argθmax∫xPdata (x)logPG(x;θ)dx=argθmax∫xPdata (x)logPG(x;θ)dx−∫xPdata (x)logPdata (x)dx=argθminKL(Pdata (x)∥PG(x;θ))
找到 θ \theta θ使得 P G ( x ; θ ) P_G(x;θ) PG(x;θ)与目标分布 P d a t a ( x ) P_{data}(x) Pdata(x)的KL散度尽可能低,也就是使得两者的分布尽可能接近,实现用确定的分布 P G ( x ; θ ) P_G(x;θ) PG(x;θ)极大似然 P d a t a ( x ) P_{data}(x) Pdata(x)