类条件概率 P ( x ∣ ω i ) P(\mathbf{x}|\omega_i) P(x∣ωi)又称似然概率,
对于最大似然估计,有基本假设:
- 要估计的参数 θ \theta θ,是确定的但未知的量(不是随机量);
- 每类的样本集记作 K i i = 1 , 2 , … , c K_i\quad i=1,2,\dots, c Kii=1,2,…,c,其中的样本都是从概率密度为 P ( x ∣ ω i ) P(\mathbf{x}|\omega_i) P(x∣ωi)的总体中独立抽取出来的,即满足独立同分布,i.i.d;
- 概率密度函数的形式已知,参数未知。为了描述概率密度函数 P ( x ∣ ω i ) P(\mathbf{x}|\omega_i) P(x∣ωi)与参数 θ \theta θ的依赖关系,用 P ( x ∣ ω i , θ ) P(\mathbf{x}|\omega_i, \theta) P(x∣ωi,θ)来表示,对于同一类别可简化为 P ( x ∣ θ ) P(\mathbf{x}|\theta) P(x∣θ);
- 各类样本只包含本类的分布信息,也就是说,不同类别的参数是独立的,这样就可以分别对每一类单独处理。
在这些假设的前提下,我们就可以分别处理c个独立的问题,即在一类中独立地按照概率密度 P ( x ∣ θ ) P(\mathbf{x}|\theta) P(x∣θ)抽取样本集 K K K,用 K K K来估计出未知参数 θ \theta θ。
这样样本集包含N个样本,即
K
=
{
x
1
,
x
2
,
…
,
x
N
}
,
x
i
是
d
维向量
(1)
K=\{\mathbf{x}_1,\mathbf{x}_2,\dots, \mathbf{x}_N\}, \quad \mathbf{x}_i是d维向量 \tag{1}
K={x1,x2,…,xN},xi是d维向量(1)
由于样本是独立地从
P
(
x
∣
θ
)
P(\mathbf{x}|\theta)
P(x∣θ)中抽取的,所以在概率密度为
P
(
x
∣
θ
)
P(\mathbf{x}|\theta)
P(x∣θ)时,获得样本集
K
K
K的概率,即出现
K
K
K中各个样本的联合概率是:
L
(
θ
)
=
P
(
K
∣
θ
)
=
P
(
x
1
,
x
2
,
…
,
x
N
∣
θ
)
=
∏
i
=
1
N
P
(
x
i
∣
θ
)
(2)
L(\theta) = P(K|\theta) = P(\mathbf{x}_1, \mathbf{x}_2,\dots, \mathbf{x}_N|\theta)=\prod_{i=1}^N P(\mathbf{x}_i|\theta) \tag{2}
L(θ)=P(K∣θ)=P(x1,x2,…,xN∣θ)=i=1∏NP(xi∣θ)(2)
这个式子反映了在概率密度函数的参数是
θ
\theta
θ时,得到上式中这组样本的概率。
式(2)为
θ
\theta
θ的函数,它反映的是在不同参数取值下取得当前样本集的可能性,我们希望这个可能性最大时,确定
θ
\theta
θ的值。
总之,似然函数 L ( θ ) L(\theta) L(θ)给出了从该类总体中抽出 x 1 , x 2 , … , x N \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N x1,x2,…,xN这样N个样本的概率。一般来说,使得这个概率最大的 θ \theta θ是我们需要的最大似然估计量。其具体的定义为:
- 令
L
(
θ
)
L(\theta)
L(θ)为样本集
K
K
K的似然函数,
K
=
{
x
1
,
x
2
,
…
,
x
N
}
K=\{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N\}
K={x1,x2,…,xN},如果
θ
^
=
d
(
x
1
,
x
2
,
…
,
x
N
)
\hat{\theta}=d(\mathbf{x}_1, \mathbf{x}_2,\dots, \mathbf{x}_N)
θ^=d(x1,x2,…,xN)是参数空间
Θ
{\Theta}
Θ中能使似然函数
L
(
θ
)
L(\theta)
L(θ)极大化的
θ
\theta
θ值,那么
θ
^
\hat{\theta}
θ^就是
θ
\theta
θ的最大似然估计量,记作:
θ ^ = arg max L ( θ ) (3) \hat{\theta} = \argmax L(\theta)\tag{3} θ^=argmaxL(θ)(3)
定义对数似然函数:
H
(
θ
)
=
ln
L
(
θ
)
=
ln
∏
i
=
1
N
P
(
x
i
∣
θ
)
=
∑
i
=
1
N
ln
P
(
x
i
∣
θ
)
(4)
H(\theta) = \ln L(\theta) = \ln \prod_{i=1}^N P(\mathbf{x}_i|\theta) = \sum_{i=1}^N\ln P(\mathbf{x}_i|\theta) \tag{4}
H(θ)=lnL(θ)=lni=1∏NP(xi∣θ)=i=1∑NlnP(xi∣θ)(4)
2. 最大似然估计的求解
-
若 θ \theta θ是一维, 则 arg max L ( θ ) \argmax L(\theta) argmaxL(θ)就是 L ′ ( θ ) = 0 L'(\theta)=0 L′(θ)=0对应驻点处,即 d L ( θ ) d θ = 0 \frac{dL(\theta)}{d\theta}=0 dθdL(θ)=0的解,
-
若 θ = [ θ 1 , θ 2 , … , θ s ] \mathbf{\theta}=[\theta_1, \theta_2, \dots, \theta_s] θ=[θ1,θ2,…,θs]为多维向量时,求解其最大值就需要对 θ \mathbf{\theta} θ的每一维求偏导,即用下面的梯度算子:
∇ θ = [ ∂ ∂ θ 1 , ∂ ∂ θ 2 , … , ∂ ∂ θ s ] T (5) \nabla_\theta = [\frac{\partial}{\partial\theta_1},\frac{\partial}{\partial\theta_2}, \dots, \frac{\partial}{\partial\theta_s}]^T \tag{5} ∇θ=[∂θ1∂,∂θ2∂,…,∂θs∂]T(5)
对似然函数求偏导,有多少个参数求多少个偏导,并令其等于0,最后求出驻点。 -
并不是所有的概率密度都用上述方法求最值,假设一维随机变量x服从均匀分布:
P ( x ∣ θ ) = { 1 θ 2 − θ 1 , θ 1 < x < θ 2 0 , e l s e (6) P(x|\theta) = \begin{cases}\frac{1}{\theta_2-\theta_1}, \theta_1 <x<\theta_2 \\ 0,\quad else \end{cases}\tag{6} P(x∣θ)={θ2−θ11,θ1<x<θ20,else(6)
其中分布的参数 θ 1 , θ 2 \theta_1, \theta_2 θ1,θ2未知,从总体分布中独立抽取了N个样本 x 1 , x 2 , … , x N x_1, x_2, \dots, x_N x1,x2,…,xN, 则似然函数为:
P ( x ∣ θ ) = { P ( x 1 , x 2 , … , x N ∣ θ 1 , θ 2 ) = 1 ( θ 2 − θ 1 ) N , x ∈ ( θ 1 , θ 2 ) 0 , e l s e (7) P(x|\theta) = \begin{cases}P(x_1, x_2, \dots, x_N|\theta_1, \theta_2)=\frac{1}{(\theta_2-\theta_1)^N}, x\in(\theta_1, \theta_2) \\ 0,\quad \quad \quad else\end{cases} \tag{7} P(x∣θ)={P(x1,x2,…,xN∣θ1,θ2)=(θ2−θ1)N1,x∈(θ1,θ2)0,else(7)
对数似然函数为:
H ( θ ) = − N ln ( θ 2 − θ 1 ) (8) H(\theta) = -N\ln(\theta_2-\theta_1) \tag{8} H(θ)=−Nln(θ2−θ1)(8)
若按照求导=0求极值,则有:
∂ H ∂ θ 1 = N 1 θ 2 − θ 1 = 0 , ∂ H ∂ θ 2 = − N 1 θ 2 − θ 1 = 0 (9) \frac{\partial{H}}{\partial{\theta}_1}=N\frac{1}{\theta_2-\theta_1}=0, \quad \frac{\partial{H}}{\partial{\theta}_2}=-N\frac{1}{\theta_2-\theta_1}=0 \tag{9} ∂θ1∂H=Nθ2−θ11=0,∂θ2∂H=−Nθ2−θ11=0(9)
要使上式为0,则 θ 2 − θ 1 → ∞ \theta_2-\theta_1 \rightarrow \infin θ2−θ1→∞至少一个参数为无穷大,这是无意义的,无法确定 θ ^ \hat{\theta} θ^。这个时候从原式出发 L ( θ ) = 1 ( θ 2 − θ 1 ) N L(\theta)=\frac{1}{(\theta_2-\theta_1)^N} L(θ)=(θ2−θ1)N1,要使其最大化,则 θ 2 − θ 1 \theta_2-\theta_1 θ2−θ1要尽可能小,这意味着随机变量的取值区间要越小。同时这个区间还必须包含所有的观察值,则 θ 1 \theta_1 θ1应该取样本中最小的观察值, θ 2 \theta_2 θ2应该取样本中最大的观察值,使得均匀分布的区间尽可能的覆盖所有观察值。