在这一篇文章中,我们来回答两个问题。
- 极大似然估计是做什么的?
- 极大似然做的流程是怎么样的?
极大似然估计是做什么的?
(记得,极大似然估计和朴素贝叶斯是不同的
在我们的日常生活中,我们可能会采样到一个数据集。
这个数据集有自己的分布,
p
(
y
∣
x
1
,
x
2
,
x
3
,
θ
)
p(y|x_1,x_2,x_3,\theta)
p(y∣x1,x2,x3,θ)
举一个最简单的例子:
从一个学校中的男生中挑出100个样例,这写男生有高有矮,我们知道他们的身高。
现在我们想做什么事儿呢?我们想知道整体的概率的分布,也就是说,用这100个样例,来估算出整体的概率。
那这事儿该怎么做呢?
我们会意识到,在整个过程中,每一次采样我们都是独立采样的,而每一次采样,我们获得的是
p
(
y
∣
θ
)
p(y|\theta)
p(y∣θ)
那么理论上,整体的概率分布该用如下方法计算:
L
(
θ
)
=
p
(
y
1
∣
θ
)
p
(
y
2
∣
θ
)
p
(
y
3
∣
θ
)
p
(
y
4
∣
θ
)
…
…
L(\theta)=p(y1|\theta)p(y2|\theta)p(y3|\theta)p(y4|\theta)……
L(θ)=p(y1∣θ)p(y2∣θ)p(y3∣θ)p(y4∣θ)……
在该过程之后,我们意识到,想要获得最好的结果,那就应该使
L
(
θ
)
L(\theta)
L(θ)最大。这就意味着,这个过程就是最优化
p
(
y
∣
θ
)
p(y|\theta)
p(y∣θ)的过程。
对于
L
(
θ
)
=
p
(
y
1
∣
θ
)
p
(
y
2
∣
θ
)
p
(
y
3
∣
θ
)
p
(
y
4
∣
θ
)
…
…
L(\theta)=p(y1|\theta)p(y2|\theta)p(y3|\theta)p(y4|\theta)……
L(θ)=p(y1∣θ)p(y2∣θ)p(y3∣θ)p(y4∣θ)……我们加上log也没什么副作用,因为在0-1,无论是log(x),还是x,都是单调的。所以
L
(
θ
)
=
l
o
g
(
p
(
y
1
∣
θ
)
)
+
l
o
g
(
p
(
y
2
∣
θ
)
+
+
l
o
g
(
p
(
y
3
∣
θ
)
)
+
l
o
g
(
p
(
y
4
∣
θ
)
)
…
…
L(\theta)=log(p(y1|\theta))+log(p(y2|\theta)+ + log(p(y3|\theta)) + log(p(y4|\theta))……
L(θ)=log(p(y1∣θ))+log(p(y2∣θ)++log(p(y3∣θ))+log(p(y4∣θ))……
然后是求导数,使得导数为0,最后解方程,得到最后的结果。