这里写自定义目录标题
概念
最大似然估计 Maximum likelihood estimation, 是一个在已知的数据集 x x x情况下,根据现有参数去预测数据分布 θ \theta θ的问题,与机器学习关系密切,同时需要很多概率知识。
什么是参数
在机器学习中,我们经常会需要用一个模型去描述观察到的数据,比如用线性模型去预测公司在广告支出和回报之间的关系,每个模型都有自己的参数,用来定义这个模型看起来是怎样的
对于线性模型来说,可以假设 y = m x + c y = mx + c y=mx+c, x是广告支出, y是回报,m和c是参数
直觉理解的MLE
MLE是一种根据已经有的数据预估可能的模型的方式,首先需要选一个合适的模型,看到下面这张图,表示一个老师批改一份作业的时间,你觉得用什么概率模型来表示比较合适?(指数分布,线性分布,高斯分布?)
通常模型的选择来自经验,如果比较熟悉各个分布会觉得这里用高斯比较合适,因为点都集中在一个特定点周围,而且可以用均值和方差表示,但我们这里不讨论先验概率选择的问题,先假定是高斯,下面这张图片显示在不同的均值和方差下,高斯的不同形态,对高斯积分后面积为1
在这里,真实分布为蓝色,高斯参数为
f
1
∼
N
(
10
,
2.25
)
f_1 \sim \mathcal{N}(10,2.25)
f1∼N(10,2.25)
计算MLE
在这里我们假设所有的点都是相互独立的,这样计算概率分布比较方便,不需要考虑条件概率。这样一个总的事件发生的概率等于所有点的概率的乘积。求MLE就是求这个函数中最大分布的值
对于一个概率分布中单独的数据点
x
x
x来说,它被这个高斯分布生成的概率为
p
(
x
;
μ
,
σ
)
=
1
σ
2
π
e
−
(
x
−
μ
)
2
2
σ
2
p(x;\mu,\sigma) = \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(x-\mu)^2}{2\sigma^2}}
p(x;μ,σ)=σ12πe−2σ2(x−μ)2
式子中的分号说明x是在知道
μ
\mu
μ和
σ
\sigma
σ之后出现的,也就是x为未知变量,不会和条件概率混淆。
在我们的例子中,计算出三个点的值
p
(
9
,
9.5
,
11
;
μ
,
σ
)
=
1
σ
2
π
e
−
(
9
−
μ
)
2
2
σ
2
⋅
1
σ
2
π
e
−
(
9.5
−
μ
)
2
2
σ
2
1
σ
⋅
2
π
e
−
(
11
−
μ
)
2
2
σ
2
p(9,9.5,11;\mu,\sigma) = \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(9-\mu)^2}{2\sigma^2}} \cdot \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(9.5-\mu)^2}{2\sigma^2}} \frac{1}{\sigma} \cdot \sqrt{2\pi} e^{-\frac{(11-\mu)^2}{2\sigma^2}}
p(9,9.5,11;μ,σ)=σ12πe−2σ2(9−μ)2⋅σ12πe−2σ2(9.5−μ)2σ1⋅2πe−2σ2(11−μ)2
直接画出来上面这个式子的条件分布是比较困难的,但我们知道这里一定存在一个最大值,因为所有的子项都是高斯分布的乘积,所以我们选择使用微积分来解决遇到的求最大值的问题,我们只需要求出它的一次微分=0的时候的值,就可以知道在什么时候这个函数取到最大值,这里不展开算因为直接计算较为困难,实际中更多算它的log likelihood
计算 log likelihood
因为log函数为单调递增函数,所以当我们计算一个函数的最大值的时候,和计算它求log后的最大值是一样的,log不会改变原有函数的特性,同时计算起来更简单。
将上面的式子用ln计算可变为
I n ( p ( 9 , 9.5 , 11 ; μ , σ ) ) = I n ( 1 σ 2 π e − ( 9 − μ ) 2 2 σ 2 ⋅ 1 σ 2 π e − ( 9.5 − μ ) 2 2 σ 2 1 σ ⋅ 2 π e − ( 11 − μ ) 2 2 σ 2 ) In(p(9,9.5,11;\mu,\sigma) )= In(\frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(9-\mu)^2}{2\sigma^2}} \cdot \frac{1}{\sigma} \sqrt{2\pi} e^{-\frac{(9.5-\mu)^2}{2\sigma^2}} \frac{1}{\sigma} \cdot \sqrt{2\pi} e^{-\frac{(11-\mu)^2}{2\sigma^2}}) In(p(9,9.5,11;μ,σ))=In(σ12πe−2σ2(9−μ)2⋅σ12πe−2σ2(9.5−μ)2σ1⋅2πe−2σ2(11−μ)2)
可以被化简为:
I
n
(
p
(
9
,
9.5
,
11
;
μ
,
σ
)
)
=
−
3
I
n
(
σ
)
−
3
2
I
n
(
2
π
)
−
1
2
σ
2
[
(
9
−
μ
)
2
+
(
9.5
−
μ
)
2
+
(
11
−
μ
)
2
]
In(p(9,9.5,11;\mu,\sigma) )= -3In(\sigma) - \frac{3}{2}In(2\pi) - \frac{1}{2\sigma^2}[(9-\mu)^2 + (9.5 - \mu)^2 + (11-\mu)^2]
In(p(9,9.5,11;μ,σ))=−3In(σ)−23In(2π)−2σ21[(9−μ)2+(9.5−μ)2+(11−μ)2]
对这个式子求偏导,我们可以得到
∂
I
n
(
P
(
x
;
μ
,
σ
)
)
∂
μ
=
1
σ
[
9
+
9.5
+
11
−
3
μ
]
\frac{\partial In(P(x;\mu,\sigma))}{\partial \mu} = \frac{1}{\sigma}[9+9.5+11-3\mu]
∂μ∂In(P(x;μ,σ))=σ1[9+9.5+11−3μ]
这样设这个式子为0,我们可以求出
μ
=
9.8333
\mu = 9.8333
μ=9.8333