现在简单写写最大似然估计。
最大似然估计是一个概率估计问题,譬如已知一个数据空间
X
X
X,数据
X
X
X中的每一个样本都有n为特征。有样本整体
x
=
[
x
1
,
x
2
,
x
3
,
x
4
,
.
.
.
.
.
,
x
n
]
x=[x_1,x_2,x_3,x_4,.....,x_n]
x=[x1,x2,x3,x4,.....,xn]。同时了有这样的先验知识,知道数据空间
X
X
X里面所有的样本,都符合一个的概率密度函数(prob density function),譬如均匀分布,或者高斯分布等。
现在假设样本都符合均匀分布,那么概率密度函数是
f
(
x
)
=
{
1
b
−
a
x
⊂
[
a
,
b
]
0
x
⊂
(
−
∞
,
a
)
∪
(
b
,
∞
)
}
f(x)=\left \{ \begin{matrix} \frac{1}{b-a}&x\subset[a,b]\\0&x\subset(-\infty,a)\cup(b,\infty)\end{matrix} \right \}
f(x)={b−a10x⊂[a,b]x⊂(−∞,a)∪(b,∞)}
那么现在就需要求取概率密度函数中的
a
a
a,
b
b
b的值。
现在已知有
n
n
n个样本,全部带入概率密度函数。并将所有的概率相乘。
就得到
y
=
f
(
x
1
)
∗
f
(
x
2
)
∗
.
.
.
∗
f
(
x
n
)
y=f(x_1)*f(x_2)*...*f(x_n)
y=f(x1)∗f(x2)∗...∗f(xn)
我们在计算上面的公式时,一般都会取一个
l
o
g
log
log值,也就是
l
o
g
−
l
i
k
e
l
y
h
o
o
d
log-likelyhood
log−likelyhood最大。
很显然,
l
o
g
(
y
)
log(y)
log(y)这个值最大,那么就让所有的样本的概率值都不为
0
0
0,这样就很容易得到
a
=
min
x
i
(
x
1
,
x
2
,
x
3
,
x
4
,
.
.
.
.
.
,
x
n
)
a=\min_{x_i}(x_1,x_2,x_3,x_4,.....,x_n)
a=ximin(x1,x2,x3,x4,.....,xn)
b
=
max
x
i
(
x
1
,
x
2
,
x
3
,
x
4
,
.
.
.
.
.
,
x
n
)
b=\max_{x_i}(x_1,x_2,x_3,x_4,.....,x_n)
b=ximax(x1,x2,x3,x4,.....,xn)
假如概率密度函数为高斯分布,
f
(
x
)
=
1
2
π
σ
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
f(x)=\frac{1}{\sqrt{{2\pi}}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2})
f(x)=2πσ1exp(−2σ2(x−μ)2)
其中均值为
μ
\mu
μ,方差为
σ
2
\sigma^2
σ2。
现在有样本
x
=
[
x
1
,
x
2
,
x
3
,
x
4
,
.
.
.
.
.
,
x
n
]
x=[x_1,x_2,x_3,x_4,.....,x_n]
x=[x1,x2,x3,x4,.....,xn],需要使所有样本的
l
o
g
−
l
i
k
e
l
y
h
o
o
d
log-likelyhood
log−likelyhood最大。
这样令
y
=
log
(
f
(
x
1
)
∗
f
(
x
2
)
∗
.
.
.
∗
f
(
x
n
)
)
y=\log(f(x_1)*f(x_2)*...*f(x_n))
y=log(f(x1)∗f(x2)∗...∗f(xn)),这样就是所有的概率值的加和了。
y
=
log
1
2
π
σ
exp
(
−
(
x
1
−
μ
)
2
2
σ
2
)
+
.
.
.
+
log
1
2
π
σ
exp
(
−
(
x
n
−
μ
)
2
2
σ
2
)
y=\log{\frac{1}{\sqrt{{2\pi}}\sigma}\exp(-\frac{(x_1-\mu)^2}{2\sigma^2})}+...+\log{\frac{1}{\sqrt{{2\pi}}\sigma}\exp(-\frac{(x_n-\mu)^2}{2\sigma^2})}
y=log2πσ1exp(−2σ2(x1−μ)2)+...+log2πσ1exp(−2σ2(xn−μ)2)
其中
x
=
[
x
1
,
x
2
,
x
3
,
x
4
,
.
.
.
.
.
,
x
n
]
x=[x_1,x_2,x_3,x_4,.....,x_n]
x=[x1,x2,x3,x4,.....,xn]是已知的,让
y
y
y最大,那就分别代入拉格朗日的算子,分别求导就好了。求出
σ
\sigma
σ,
μ
\mu
μ。
以上就是极大似然估计。
简单记录一下上面的公式,后面可能会用到。
公式1
f
(
x
)
=
{
1
b
−
a
x
⊂
[
a
,
b
]
0
x
⊂
(
−
∞
,
a
)
∪
(
b
,
∞
)
}
f(x)= \left \{ \begin{matrix} \frac{1}{b-a}&x\subset[a,b]\\0&x\subset(-\infty,a)\cup(b,\infty) \end{matrix} \right \}
f(x)={b−a10x⊂[a,b]x⊂(−∞,a)∪(b,∞)}
$$
f(x)=
\left \{
\begin{matrix}
\frac{1}{b-a}&x\subset[a,b]\\0&x\subset(-\infty,a)\cup(b,\infty)
\end{matrix}
\right \}
$$
公式2:
f
(
x
)
=
1
2
π
σ
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
f(x)=\frac{1}{\sqrt{{2\pi}}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2})
f(x)=2πσ1exp(−2σ2(x−μ)2)
$$
f(x)=\frac{1}{\sqrt{{2\pi}}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2})
$$