1极大似然估计
极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,属于概率统计学课里的一种方法。
极大似然估计的目的是解决模型已定,参数未知的问题,和贝叶斯公式由果推因的目的有很多相似之处。
例如,已知人的身高服从正态分布,即概率密度函数
f
f
f已知。此时从人群中抽取了100个人,获取了他们的身高。极大似然估计做的事情就是利用这两个条件(身高服从正态分布,100个人的身高),来估计人的身高的正态分布的两个参数
μ
,
σ
\mu ,\sigma
μ,σ。
极大似然估计基于的原理就是:在所有可能的结果中,获得这些样本的可能性是最大的。或者说,概率分布已知,我在里面抽取样本有无数种可能,可是我为什么就抽取了这些样本,而不是别的样本?说明这些样本出现的概率是最大的。
我们假设样本之间是独立的,那么同时抽到
n
n
n个样本的概率用公式表示为:
p
(
x
1
,
x
2
,
.
.
.
,
x
n
∣
θ
)
=
p
(
x
1
∣
θ
)
p
(
x
2
∣
θ
)
.
.
.
p
(
x
n
∣
θ
)
p(x_1,x_2,...,x_n|\theta)=p(x_1|\theta)p(x_2|\theta)...p(x_n|\theta)
p(x1,x2,...,xn∣θ)=p(x1∣θ)p(x2∣θ)...p(xn∣θ)
里面的
p
(
x
i
∣
θ
)
p(x_i|\theta)
p(xi∣θ)可以利用之前已知的概率分布函数进行计算。
可以发现,
p
(
x
1
,
x
2
,
.
.
.
,
x
n
∣
θ
)
p(x_1,x_2,...,x_n|\theta)
p(x1,x2,...,xn∣θ)是一个关于参数
θ
\theta
θ的函数,为了后期更方便求导,对于
p
(
x
1
,
x
2
,
.
.
.
,
x
n
∣
θ
)
p(x_1,x_2,...,x_n|\theta)
p(x1,x2,...,xn∣θ)取对数,并记为
L
(
θ
)
L(\theta)
L(θ):
L
(
θ
)
=
l
o
g
(
p
(
x
1
,
x
2
,
.
.
.
,
x
n
∣
θ
)
)
=
l
o
g
(
p
(
x
1
∣
θ
)
)
+
l
o
g
(
p
(
x
2
∣
θ
)
)
+
.
.
.
+
l
o
g
(
p
(
x
n
∣
θ
)
)
L(\theta)=log(p(x_1,x_2,...,x_n|\theta))=log(p(x_1|\theta))+log(p(x_2|\theta))+...+log(p(x_n|\theta))
L(θ)=log(p(x1,x2,...,xn∣θ))=log(p(x1∣θ))+log(p(x2∣θ))+...+log(p(xn∣θ))
针对参数
θ
\theta
θ对
L
(
θ
)
L(\theta)
L(θ)求偏导,并让其等于0,通过解方程的方法即得到了参数
θ
\theta
θ的最优解。
2 极大似然估计与机器学习
按照一个一般的机器学习分类,可以分为如下图所示的几个部分(图片来自网络)。
但是无论是哪种方法,仿佛都是在寻找一个最优的模型,这里面的模型主要指的就是这些特定的算法下的特定的参数的组合。因为在面对一个机器学习问题时,很少有人会独创一套新的算法,基本上就是先在所有算法中找一个最适合的算法,再通过人工或者自动参数更新的方式找到一组最优的参数,这个算法+最优参数的组合就叫模型。
可以发现,机器学习本身也是一种由数据(有标签或无标签)推测模型的过程,与极大似然估计十分类似。粗糙点说,极大似然的概率密度函数就像是机器学习的算法,要用偏导求得的参数就相当于机器学习里的参数(不是超参数,虽然有些算法只有超参数,这是一个大概的理解)。
因此,无论是极大似然还是机器学习,都是想根据给定的数据找到一个最合适的模型,并且都要求数据本身独立同分布。这个数据在机器学习里是广义的,包括有标签数据、无标签数据,甚至是强化学习的环境模型。