给定一个概率分布
D
D
D,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为
f
D
f_D
fD,以及一个分布参数
θ
\theta
θ,我们可以从这个分布中进行
n
n
n次采样:
P
(
x
1
,
x
2
,
⋅
⋅
⋅
,
x
n
)
=
f
D
(
x
1
,
⋅
⋅
⋅
,
x
n
∣
θ
)
P(x_1,x_2,···,x_n)=f_D(x_1,···,x_n|\theta)
P(x1,x2,⋅⋅⋅,xn)=fD(x1,⋅⋅⋅,xn∣θ)
但是,我们可能不知道
θ
\theta
θ的取值,这时我们可以通过上面的
n
n
n次采样估算出
θ
\theta
θ
用一个例子来说明:
假设一个袋子装有白球与红球,比例未知,现在抽取10次(每次抽完都放回,保证事件独立性),假设抽到了7次白球和3次红球,在此数据样本条件下,可以采用最大似然估计法求解袋子中白球的比例(最大似然估计是一种“模型已定,参数未知”的方法)。当然,这种数据情况下很明显,白球的比例是70%,但如何通过理论的方法得到这个答案呢?一些复杂的条件下,是很难通过直观的方式获得答案的,这时候理论分析就尤为重要了,这也是学者们为何要提出最大似然估计的原因。我们可以定义从袋子中抽取白球和红球的概率如下:
f
(
x
1
,
x
2
∣
θ
)
=
f
(
x
1
∣
θ
)
∗
f
(
x
2
∣
θ
)
f(x_1,x_2|\theta)=f(x_1|\theta)*f(x_2|\theta)
f(x1,x2∣θ)=f(x1∣θ)∗f(x2∣θ)
x
1
x_1
x1为第一次采样,
x
2
x_2
x2为第二次采样,
f
f
f为模型,
θ
\theta
θ为模型参数
其中
θ
\theta
θ是未知的,因此,参数
θ
\theta
θ的定义为:
L
(
θ
∣
x
1
,
x
2
)
=
f
(
x
1
,
x
2
∣
θ
)
=
∏
i
=
1
2
f
(
x
i
∣
θ
)
L(\theta|x_1,x_2)=f(x_1,x_2|\theta)= \prod_{i=1}^2 f(x_i|\theta)
L(θ∣x1,x2)=f(x1,x2∣θ)=∏i=12f(xi∣θ)
两边取ln,取ln是为了将右边的乘号变为加号,方便求导
l
n
L
(
θ
∣
x
1
,
x
2
)
=
l
n
∑
i
=
1
2
f
(
x
i
∣
θ
)
=
∑
i
=
1
2
l
n
f
(
x
i
∣
θ
)
lnL(\theta|x_1,x_2)=ln\sum_{i=1}^2 f(x_i|\theta)=\sum_{i=1}^2lnf(x_i|\theta)
lnL(θ∣x1,x2)=ln∑i=12f(xi∣θ)=∑i=12lnf(xi∣θ)
然后平均对数似然
ϑ
^
=
1
2
l
n
L
(
θ
∣
x
1
,
x
2
)
\widehat{\vartheta}=\frac{1}{2}lnL(\theta|x_1,x_2)
ϑ
=21lnL(θ∣x1,x2)
最大似然估计的过程,就是找一个合适的
θ
\theta
θ,使得平均对数似然的值为最大。因此,可以得到以下公式:
θ
^
m
l
e
=
a
r
g
m
a
x
ϑ
^
(
θ
∣
x
1
,
x
2
)
\widehat{\theta}_{mle}=argmax\widehat{\vartheta}(\theta|x_1,x_2)
θ
mle=argmaxϑ
(θ∣x1,x2)
这里讨论的是2次采样的情况,当然也可以拓展到多次采样的情况:
θ
^
m
l
e
=
a
r
g
m
a
x
ϑ
^
(
θ
∣
x
1
,
x
2
,
⋅
⋅
⋅
,
x
n
)
\widehat{\theta}_{mle}=argmax\widehat{\vartheta}(\theta|x_1,x_2,···,x_n)
θ
mle=argmaxϑ
(θ∣x1,x2,⋅⋅⋅,xn)
我们定义M为模型(也就是之前公式中的f),表示抽到白球的概率为
θ
\theta
θ,而抽到红球的概率为(
1
−
θ
1-\theta
1−θ),因此10次抽取抽到白球7次的概率可以表示为:
P
(
x
1
,
x
2
,
⋅
⋅
⋅
,
x
10
∣
M
)
=
P
(
x
1
∣
M
)
⋅
⋅
⋅
×
P
(
x
10
∣
M
)
=
θ
7
(
1
−
θ
)
3
P(x_1,x_2,···,x_{10}|M)=P(x_1|M)···\times P(x_{10}|M)=\theta^{7}(1-\theta)^3
P(x1,x2,⋅⋅⋅,x10∣M)=P(x1∣M)⋅⋅⋅×P(x10∣M)=θ7(1−θ)3
将其描述为平均似然可得:
ϑ
^
=
1
10
l
n
P
(
x
1
,
x
2
⋅
⋅
⋅
x
10
∣
M
)
=
1
10
l
n
[
θ
7
(
1
−
θ
)
3
]
\widehat{\vartheta}=\frac{1}{10}lnP(x_1,x_2···x_{10}|M)=\frac{1}{10}ln[\theta^7(1-\theta)^3]
ϑ
=101lnP(x1,x2⋅⋅⋅x10∣M)=101ln[θ7(1−θ)3]
然后对
θ
\theta
θ进行求导,另导数等于0
ϑ
^
=
7
θ
6
(
1
−
θ
)
3
−
3
θ
7
(
1
−
θ
)
2
=
0
\widehat{\vartheta}=7\theta^6(1-\theta)^3-3\theta^7(1-\theta)^2=0
ϑ
=7θ6(1−θ)3−3θ7(1−θ)2=0
得到
θ
\theta
θ=0.7