最小二乘法(Least Squares Method)和最大似然估计(Maximum Likelihood Estimate)有内在的联系吗?本博客阐述的是二者之间的千丝万缕!
对于最小二乘,当从模型总体随机抽取 n n n 组样本观测值后,最合理的参数估计量应该使得模型能最好的拟合样本数据!
最大似然估计,当从模型总体随机抽取 n n n 组样本观测值后,最合理的参数估计量应该使得从模型中抽取该 n n n 组样本观测值的概率最大!
简单来说就是这样一个假定:我们所观察到的事件/样本,都是大概率事件,小概率事件我们“观察不到” (参考 如何简单形象的解释最大拟然估计?)
1 最大似然估计法
设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是来自总体 X X X 的样本, x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 是样本值, θ \theta θ 是待估参数.
1.1 似然函数
定义:
对于离散型总体
X
X
X,设其概率分布为
P
{
X
=
a
i
}
=
p
(
a
i
,
θ
)
,
i
=
1
,
2
,
.
.
.
P\{X=a_i\}=p(a_i,\theta),i=1,2,...
P{X=ai}=p(ai,θ),i=1,2,...,称函数
L
(
θ
)
=
L
(
X
1
,
X
2
,
.
.
.
,
X
n
;
θ
)
=
∏
i
=
1
n
p
(
X
i
;
θ
)
L(\theta) = L(X_1,X_2,...,X_n; \theta) = \prod_{i=1}^{n}p(X_i;\theta )
L(θ)=L(X1,X2,...,Xn;θ)=i=1∏np(Xi;θ)
为参数
θ
\theta
θ 的似然函数。
对于连续型总体
X
X
X,概率密度为
f
(
x
;
θ
)
f(x;\theta)
f(x;θ),则称函数
L
(
θ
)
=
L
(
X
1
,
X
2
,
.
.
.
,
X
n
;
θ
)
=
∏
i
=
1
n
f
(
X
i
;
θ
)
L(\theta) = L(X_1,X_2,...,X_n; \theta) = \prod_{i=1}^{n}f(X_i;\theta )
L(θ)=L(X1,X2,...,Xn;θ)=i=1∏nf(Xi;θ)
为参数
θ
\theta
θ 的似然函数。
1.2 最大似然估计
定义:对于给定的样本值 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn),使似然函数 L ( x 1 , x 2 , . . . , x n ; θ ) L(x_1,x_2,...,x_n; \theta) L(x1,x2,...,xn;θ) 达到最大值的参数值 θ ^ = θ ^ ( x 1 , x 2 , . . . , x n ) \hat{\theta} = \hat{\theta}(x_1,x_2,...,x_n) θ^=θ^(x1,x2,...,xn) 称为未知参数 θ \theta θ 的最大似然估计值。
相应的使似然函数 L ( X 1 , X 2 , . . . , X n ; θ ) L(X_1,X_2,...,X_n; \theta) L(X1,X2,...,Xn;θ) 达到最大值的参数值 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta} = \hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn) 称为未知参数 θ \theta θ 的最大似然估计量。
一般统称为 θ \theta θ 的最大似然估计,称这种估计法为最大似然估计法
1.3 求解步骤
1)求似然函数
2)取对数(把乘法变成加法)
3)求最大值(一般令导数为0,区间内唯一驻点为最值)
1.4 Demo(高斯函数的均值和方差)
高斯分布 P ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 P(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} P(x)=2πσ1e−2σ2(x−μ)2
对于总体 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn,
1)似然函数
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
μ
,
σ
)
=
1
2
π
σ
e
−
(
x
1
−
μ
)
2
2
σ
2
⋅
1
2
π
σ
e
−
(
x
2
−
μ
)
2
2
σ
2
.
.
.
1
2
π
σ
e
−
(
x
n
−
μ
)
2
2
σ
2
L(x_1,x_2,...,x_n;\mu,\sigma) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_1-\mu)^2}{2\sigma^2}}\cdot\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_2-\mu)^2}{2\sigma^2}}...\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_n-\mu)^2}{2\sigma^2}}
L(x1,x2,...,xn;μ,σ)=2πσ1e−2σ2(x1−μ)2⋅2πσ1e−2σ2(x2−μ)2...2πσ1e−2σ2(xn−μ)2
2)对数似然函数
l
n
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
μ
,
σ
)
=
l
n
(
1
2
π
σ
e
−
(
x
1
−
μ
)
2
2
σ
2
)
+
l
n
(
1
2
π
σ
e
−
(
x
2
−
μ
)
2
2
σ
2
)
+
.
.
.
+
l
n
(
1
2
π
σ
e
−
(
x
n
−
μ
)
2
2
σ
2
)
=
−
n
l
n
(
2
π
)
−
n
l
n
(
σ
)
−
∑
i
=
1
n
(
x
i
−
μ
)
2
2
σ
2
\begin{aligned} lnL(x_1,x_2,...,x_n;\mu,\sigma) &= ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_1-\mu)^2}{2\sigma^2}})+ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_2-\mu)^2}{2\sigma^2}})+...+ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_n-\mu)^2}{2\sigma^2}}) \\ &= -nln(\sqrt{2\pi}) - nln(\sigma) - \sum_{i=1}^{n}\frac{(x_i-\mu)^2}{2\sigma^2} \end{aligned}
lnL(x1,x2,...,xn;μ,σ)=ln(2πσ1e−2σ2(x1−μ)2)+ln(2πσ1e−2σ2(x2−μ)2)+...+ln(2πσ1e−2σ2(xn−μ)2)=−nln(2π)−nln(σ)−i=1∑n2σ2(xi−μ)2
3)求最大值
对未知参数
μ
\mu
μ 求偏导
∂
l
n
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
μ
,
σ
)
∂
μ
=
−
∑
i
=
1
n
x
i
−
μ
σ
2
\frac{\partial lnL(x_1,x_2,...,x_n;\mu,\sigma)}{\partial \mu} = -\sum_{i=1}^{n}\frac{x_i-\mu}{\sigma^2}
∂μ∂lnL(x1,x2,...,xn;μ,σ)=−i=1∑nσ2xi−μ
令偏导为零
∑ i = 1 n ( x i − μ ) = 0 ⇒ ∑ i = 1 n x i = n μ ⇒ μ ^ = 1 n ∑ i = 1 n x i \begin{aligned} &\sum_{i=1}^{n}(x_i-\mu) = 0 \\ \Rightarrow & \sum_{i=1}^{n}x_i = n\mu \\ \Rightarrow & \hat{\mu} = \frac{1}{n}\sum_{i=1}^{n}x_i \end{aligned} ⇒⇒i=1∑n(xi−μ)=0i=1∑nxi=nμμ^=n1i=1∑nxi
对未知参数 σ \sigma σ 求偏导
∂ l n L ( x 1 , x 2 , . . . , x n ; μ , σ ) ∂ σ = − n σ + ∑ i = 1 n ( x i − μ ) 2 σ 3 = − n σ + 1 σ 3 ∑ i = 1 n ( x i − μ ) 2 \frac{\partial lnL(x_1,x_2,...,x_n;\mu,\sigma)}{\partial \sigma} = -\frac{n}{\sigma} + \sum_{i=1}^{n}\frac{(x_i-\mu)^2}{\sigma^3} = -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^{n}(x_i-\mu)^2 ∂σ∂lnL(x1,x2,...,xn;μ,σ)=−σn+i=1∑nσ3(xi−μ)2=−σn+σ31i=1∑n(xi−μ)2
令偏导为零
−
n
σ
+
1
σ
3
∑
i
=
1
n
(
x
i
−
μ
)
2
=
0
⇒
σ
^
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
\begin{aligned} & -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^{n}(x_i-\mu)^2 = 0 \\ \Rightarrow & \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 \end{aligned}
⇒−σn+σ31i=1∑n(xi−μ)2=0σ^2=n1i=1∑n(xi−μ)2
综上所述,用最大似然估计法求出来的高斯分布的总体均值和方差如下:
μ
=
1
n
∑
i
=
1
n
x
i
\mu = \frac{1}{n}\sum_{i=1}^{n}x_i
μ=n1i=1∑nxi
σ
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
\sigma ^2= \frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2
σ2=n1i=1∑n(xi−μ)2
和高斯分布的总体均值和方差一致!
接下来我们看看样本均值和方差的定义:
设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是来自总体 X X X 的样本,则称
样本均值
X ˉ = 1 n ∑ i = 1 n X i \bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i Xˉ=n1i=1∑nXi
样本方差
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2 S2=n−11i=1∑n(Xi−Xˉ)2
样本数字特征的性质
1)如果总体 X X X 具有数学期望 E ( X ) = μ E(X) = \mu E(X)=μ,则
E ( X ˉ ) = E ( X ) = μ E(\bar{X}) = E(X) = \mu E(Xˉ)=E(X)=μ
推导
E
(
X
ˉ
)
=
E
(
1
n
∑
i
=
1
n
X
i
)
=
1
n
n
μ
=
μ
E(\bar{X}) = E(\frac{1}{n}\sum_{i=1}^{n}X_i) = \frac{1}{n}n\mu = \mu
E(Xˉ)=E(n1i=1∑nXi)=n1nμ=μ
2)如果总体
X
X
X 具有方差
V
a
r
(
X
)
=
σ
2
Var(X) = \sigma^2
Var(X)=σ2,则
V
a
r
(
X
ˉ
)
=
1
n
V
a
r
(
X
)
=
σ
2
n
Var(\bar{X}) = \frac{1}{n}Var(X) = \frac{\sigma^2}{n}
Var(Xˉ)=n1Var(X)=nσ2
推导
V
a
r
(
X
ˉ
)
=
V
a
r
(
1
n
∑
i
=
1
n
X
i
)
=
1
n
2
n
σ
2
=
σ
2
n
Var(\bar{X}) = Var(\frac{1}{n}\sum_{i=1}^{n}X_i) = \frac{1}{n^2}n\sigma^2 = \frac{\sigma^2}{n}
Var(Xˉ)=Var(n1i=1∑nXi)=n21nσ2=nσ2
我的天?怎么变成 n − 1 n-1 n−1 了?这里是总体均值的无偏估计(无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值)!参考 彻底理解样本方差为何除以n-1
下面我们来详细的分析一下来龙去脉!
无偏估计量的定义
设 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的估计量,如果 E ( θ ^ ) = θ E(\hat{\theta}) = \theta E(θ^)=θ,则称 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta} = \hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn) 是未知参数 θ \theta θ 的无偏估计量!
以例子来说明,假如你想知道一所大学里学生的平均身高是多少,一个大学好几万人,全部统计有点不现实,但是你可以先随机挑选100个人,统计他们的身高,然后计算出他们的平均值,记为 X 1 ˉ \bar{X_1} X1ˉ。如果你只是把 X 1 ˉ \bar{X_1} X1ˉ 作为整体的身高平均值,误差肯定很大,因为你再随机挑选出100个人,身高平均值很可能就跟刚才计算的不同,为了使得统计结果更加精确,你需要多抽取几次,然后分别计算出他们的平均值,分别记为 X 1 ˉ , X 2 ˉ , . . . X n ˉ , \bar{X_1},\bar{X_2},...\bar{X_n}, X1ˉ,X2ˉ,...Xnˉ,:然后在把这些平均值,再做平均,记为 E ( X ) E(X) E(X),这样的结果肯定比只计算一次更加精确,随着重复抽取的次数增多,这个期望值会越来越接近总体均值 μ \mu μ,如果满足 E ( X ) = μ E(X) = \mu E(X)=μ,这就是一个无偏估计。(这段话来自 彻底理解样本方差为何除以n-1)
如果样本方差除以的是 n n n,我们来看看它的均值和总体方差是否相等!
E ( S 2 ) = E ( 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ) = E ( 1 n ∑ i = 1 n ( ( X i − μ ) − ( X ˉ − μ ) ) 2 ) = E ( 1 n ∑ i = 1 n ( ( X i − μ ) 2 − 2 ( X i − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 ) ) = E ( 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ∑ i = 1 n ( X i − μ ) ( X ˉ − μ ) + 1 n ∑ i = 1 n ( X ˉ − μ ) 2 ) = E ( 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 ( X ˉ − μ ) 2 + ( X ˉ − μ ) 2 ) 已 知 1 n ∑ i = 1 n ( X i − μ ) = 1 n ∑ i = 1 n X i − 1 n n μ = X ˉ − μ = E ( 1 n ∑ i = 1 n ( X i − μ ) 2 − ( X ˉ − μ ) 2 ) = E ( σ 2 ) − E ( ( X ˉ − μ ) 2 ) ≤ σ 2 \begin{aligned} E(S^2) &= E( \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2) = E(\frac{1}{n}\sum_{i=1}^{n}((X_i- \mu) - (\bar{X}-\mu))^2)\\ &= E(\frac{1}{n}\sum_{i=1}^{n}((X_i- \mu) ^2- 2(X_i- \mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2))\\ &= E(\frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) ^2- \frac{2}{n}\sum_{i=1}^{n}(X_i- \mu)(\bar{X}-\mu)+\frac{1}{n}\sum_{i=1}^{n}(\bar{X}-\mu)^2)\\ &= E(\frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) ^2- 2(\bar{X}-\mu)^2+(\bar{X}-\mu)^2) \\ & 已知 \frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) = \frac{1}{n}\sum_{i=1}^{n}X_i- \frac{1}{n}n\mu = \bar{X} - \mu\\ &= E(\frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) ^2- (\bar{X}-\mu)^2) \\ &= E(\sigma^2)- E((\bar{X}-\mu)^2) \leq \sigma^2\\ \end{aligned} E(S2)=E(n1i=1∑n(Xi−Xˉ)2)=E(n1i=1∑n((Xi−μ)−(Xˉ−μ))2)=E(n1i=1∑n((Xi−μ)2−2(Xi−μ)(Xˉ−μ)+(Xˉ−μ)2))=E(n1i=1∑n(Xi−μ)2−n2i=1∑n(Xi−μ)(Xˉ−μ)+n1i=1∑n(Xˉ−μ)2)=E(n1i=1∑n(Xi−μ)2−2(Xˉ−μ)2+(Xˉ−μ)2)已知n1i=1∑n(Xi−μ)=n1i=1∑nXi−n1nμ=Xˉ−μ=E(n1i=1∑n(Xi−μ)2−(Xˉ−μ)2)=E(σ2)−E((Xˉ−μ)2)≤σ2
可惜了,不满足无偏估计!对上面的式子继续化简
E ( S 2 ) = E ( σ 2 ) − E ( ( X ˉ − μ ) 2 ) = σ 2 − E ( ( X ˉ − μ ) 2 ) ( 参 考 前 面 样 本 数 字 特 征 的 性 质 ) = σ 2 − E ( ( X ˉ − E ( X ˉ ) ) 2 ) ( 方 差 的 定 义 ) = σ 2 − V a r ( X ˉ ) ( 参 考 前 面 样 本 数 字 特 征 的 性 质 ) = σ 2 − σ 2 n = n − 1 n σ 2 \begin{aligned} E(S^2) &=E(\sigma^2)- E((\bar{X}-\mu)^2)\\ &= \sigma^2- E((\bar{X}-\mu)^2) (参考前面样本数字特征的性质)\\ &= \sigma^2- E((\bar{X}-E(\bar{X}))^2)(方差的定义)\\ &= \sigma^2 - Var(\bar{X}) (参考前面样本数字特征的性质)\\ & = \sigma^2 - \frac{\sigma^2}{n} \\ & = \frac{n-1}{n} \sigma^2 \end{aligned}\\ E(S2)=E(σ2)−E((Xˉ−μ)2)=σ2−E((Xˉ−μ)2)(参考前面样本数字特征的性质)=σ2−E((Xˉ−E(Xˉ))2)(方差的定义)=σ2−Var(Xˉ)(参考前面样本数字特征的性质)=σ2−nσ2=nn−1σ2
OK,调整下 S 2 S^2 S2 的形式就可以得到无偏估计了!
E ( S 2 ⋅ n n − 1 ) = n n − 1 E ( S 2 ) = σ 2 E(S^2 \cdot \frac{n}{n-1}) = \frac{n}{n-1}E(S^2) = \sigma^2 E(S2⋅n−1n)=n−1nE(S2)=σ2
hold on,hold on,DJ drop the beat,我们来计算一下修改后的样本方差是否是总体方差的无偏估计!
E ( S 2 ⋅ n n − 1 ) = E ( ⋅ n n − 1 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( ( X i − μ ) − ( X ˉ − μ ) ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( ( X i − μ ) 2 − 2 ( X i − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 ) ) = E ( 1 n − 1 ∑ i = 1 n ( X i − μ ) 2 − 2 n − 1 ∑ i = 1 n ( X i − μ ) ( X ˉ − μ ) + 1 n − 1 ∑ i = 1 n ( X ˉ − μ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( X i − μ ) 2 − 2 n n − 1 ( X ˉ − μ ) 2 + n n − 1 ( X ˉ − μ ) 2 ) ( 因 为 1 n ∑ i = 1 n ( X i − μ ) = 1 n ∑ i = 1 n X i − 1 n n μ = X ˉ − μ ) = E ( 1 n − 1 ∑ i = 1 n ( X i − μ ) 2 − n n − 1 ( X ˉ − μ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( X i − μ ) 2 ) − E ( n n − 1 ( X ˉ − μ ) 2 ) = n n − 1 E ( 1 n ∑ i = 1 n ( X i − μ ) 2 ) − n n − 1 E ( ( X ˉ − μ ) 2 ) = n n − 1 σ 2 − n n − 1 ⋅ σ 2 n = σ 2 \begin{aligned} E(S^2\cdot \frac{n}{n-1}) &= E(\cdot \frac{n}{n-1} \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2) = E( \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2) \\ & = E(\frac{1}{n-1}\sum_{i=1}^{n}((X_i- \mu) - (\bar{X}-\mu))^2)\\ &= E(\frac{1}{n-1}\sum_{i=1}^{n}((X_i- \mu) ^2- 2(X_i- \mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2))\\ &= E(\frac{1}{n-1}\sum_{i=1}^{n}(X_i- \mu) ^2- \frac{2}{n-1}\sum_{i=1}^{n}(X_i- \mu)(\bar{X}-\mu)+\frac{1}{n-1}\sum_{i=1}^{n}(\bar{X}-\mu)^2)\\ &= E(\frac{1}{n-1}\sum_{i=1}^{n}(X_i- \mu) ^2- \frac{2n}{n-1}(\bar{X}-\mu)^2+\frac{n}{n-1}(\bar{X}-\mu)^2)(因为 \frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) = \frac{1}{n}\sum_{i=1}^{n}X_i- \frac{1}{n}n\mu = \bar{X} - \mu)\\ &= E(\frac{1}{n-1}\sum_{i=1}^{n}(X_i- \mu) ^2- \frac{n}{n-1}(\bar{X}-\mu)^2) \\ &=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_i- \mu) ^2)- E(\frac{n}{n-1}(\bar{X}-\mu)^2) \\ &=\frac{n}{n-1}E(\frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) ^2)- \frac{n}{n-1}E((\bar{X}-\mu)^2) \\ &= \frac{n}{n-1}\sigma^2 - \frac{n}{n-1} \cdot \frac{\sigma^2}{n} &= \sigma^2 \end{aligned} E(S2⋅n−1n)=E(⋅n−1nn1i=1∑n(Xi−Xˉ)2)=E(n−11i=1∑n(Xi−Xˉ)2)=E(n−11i=1∑n((Xi−μ)−(Xˉ−μ))2)=E(n−11i=1∑n((Xi−μ)2−2(Xi−μ)(Xˉ−μ)+(Xˉ−μ)2))=E(n−11i=1∑n(Xi−μ)2−n−12i=1∑n(Xi−μ)(Xˉ−μ)+n−11i=1∑n(Xˉ−μ)2)=E(n−11i=1∑n(Xi−μ)2−n−12n(Xˉ−μ)2+n−1n(Xˉ−μ)2)(因为n1i=1∑n(Xi−μ)=n1i=1∑nXi−n1nμ=Xˉ−μ)=E(n−11i=1∑n(Xi−μ)2−n−1n(Xˉ−μ)2)=E(n−11i=1∑n(Xi−μ)2)−E(n−1n(Xˉ−μ)2)=n−1nE(n1i=1∑n(Xi−μ)2)−n−1nE((Xˉ−μ)2)=n−1nσ2−n−1n⋅nσ2=σ2
所以,样本的方差公式为:
S
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2
S2=n−11i=1∑n(Xi−Xˉ)2
目的是得到总体方差的无偏估计!
2 最大似然估计和最小二乘法的联系
x 1 , x 2 , . . . , x n , x i ∈ R m x_1,x_2,...,x_n, x_i \in \mathbb{R}^m x1,x2,...,xn,xi∈Rm
y 1 , y 2 , . . . , y n , y i ∈ R 1 y_1,y_2,...,y_n, y_i \in \mathbb{R}^1 y1,y2,...,yn,yi∈R1
y i ^ = W T x i , W ∈ R m \hat{y_i} = W^Tx_i,W \in \mathbb{R}^m yi^=WTxi,W∈Rm
最小二乘法需要用 y i ^ \hat{y_i} yi^ 拟合 y i y_i yi,使得误差 ∑ e i 2 = ∑ ( y i − y i ^ ) 2 \sum e_i^2 = \sum(y_i -\hat{y_i})^2 ∑ei2=∑(yi−yi^)2 越小越好
对于最大似然估计
假设误差 e i ∼ N ( 0 , σ 2 ) e_i \sim N(0,\sigma^2) ei∼N(0,σ2) 服从正态(高斯)分布(误差的均值为0,方差越小越好)
e i ∼ 1 2 π σ e − e i 2 2 σ 2 e_i \sim \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{e_i^2}{2\sigma^2}} ei∼2πσ1e−2σ2ei2
对数释然
l n L ( x 1 , x 2 , . . . , x n ; σ ) = l n ( 1 2 π σ e − e i 2 2 σ 2 ) + l n ( 1 2 π σ e − e i 2 2 σ 2 ) + . . . + l n ( 1 2 π σ e − e i 2 2 σ 2 ) = − n l n ( 2 π ) − n l n ( σ ) − ∑ i = 1 n e i 2 2 σ 2 \begin{aligned} lnL(x_1,x_2,...,x_n;\sigma) &= ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{e_i^2}{2\sigma^2}})+ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{e_i^2}{2\sigma^2}})+...+ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{e_i^2}{2\sigma^2}}) \\ &= -nln(\sqrt{2\pi}) - nln(\sigma) - \sum_{i=1}^{n}\frac{e_i^2}{2\sigma^2} \end{aligned} lnL(x1,x2,...,xn;σ)=ln(2πσ1e−2σ2ei2)+ln(2πσ1e−2σ2ei2)+...+ln(2πσ1e−2σ2ei2)=−nln(2π)−nln(σ)−i=1∑n2σ2ei2
对未知参数 σ \sigma σ 求偏导
∂ l n L ( x 1 , x 2 , . . . , x n ; σ ) ∂ σ = − n σ + 1 σ 3 ∑ i = 1 n e i 2 \frac{\partial lnL(x_1,x_2,...,x_n;\sigma)}{\partial \sigma} = -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^{n}e_i^2 ∂σ∂lnL(x1,x2,...,xn;σ)=−σn+σ31i=1∑nei2
令偏导为零
−
n
σ
+
1
σ
3
∑
i
=
1
n
e
i
2
=
0
⇒
σ
^
2
=
1
n
∑
i
=
1
n
e
i
2
\begin{aligned} & -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^{n}e_i^2 = 0 \\ \Rightarrow & \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}e_i^2 \end{aligned}
⇒−σn+σ31i=1∑nei2=0σ^2=n1i=1∑nei2
我们知道 e i ∼ N ( 0 , σ 2 ) e_i \sim N(0,\sigma^2) ei∼N(0,σ2),误差的均值为 0,方差越小越好(为0最好,一模一样)
这和最小二乘法 min e i 2 e_i^2 ei2 殊途同归!
3 最大后验概率估计
Maximum a posteriori(MAP)
说起最大后验概率,就不得不说起,统计学的两大派系:
- 频率派统计(frequentist statistics)
- 贝叶斯统计(Bayesian statistics)
最大似然估计属于频率派统计,最大后验概率估计属于贝叶斯统计的范畴!两者的主要区别如下:
-
最大似然方法预测时使用 θ \theta θ 的点估计( θ \theta θ 是固定的,只是值未知)
-
贝叶斯方法使用的 θ \theta θ 的全分布( θ \theta θ 是随机变量,即 θ \theta θ 具有某种概率分布,称为先验分布)
最大后验概率估计选择后验概率最大的点,或者概率密度最大的点,因为贝叶斯公式很多情况不是那么好计算,但还是保留了先验概率,防止退化成最大似然估计!
最大似然估计:
θ
M
L
=
a
r
g
m
a
x
θ
∏
i
=
1
m
p
(
x
(
i
)
;
θ
)
\theta_{ML}=\underset{\theta }{argmax}\prod_{i=1}^{m}p(x^{(i)};\theta )
θML=θargmaxi=1∏mp(x(i);θ)
条件最大似然估计:
θ M L = a r g m a x θ ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) \theta_{ML}=\underset{\theta }{argmax}\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta ) θML=θargmaxi=1∏mp(y(i)∣x(i);θ)
贝叶斯估计:
p
(
θ
∣
x
(
1
)
,
.
.
.
,
x
(
m
)
)
=
p
(
x
(
1
)
,
.
.
.
,
x
(
m
)
∣
θ
)
p
(
θ
)
p
(
x
(
1
)
,
.
.
.
,
x
(
m
)
)
p(\theta|x^{(1)},...,x^{(m)}) = \frac{p(x^{(1)},...,x^{(m) }|\theta)p(\theta)}{p(x^{(1)},...,x^{(m) })}
p(θ∣x(1),...,x(m))=p(x(1),...,x(m))p(x(1),...,x(m)∣θ)p(θ)
分母的计算是,遍历所有的 θ \theta θ 算一次分子,显然,很多情况下很难计算的!
最大后验概率估计:
θ M A P = a r g m a x θ p ( θ ∣ x ( 1 ) , . . . , x ( m ) ) = a r g m a x θ p ( x ( 1 ) , . . . , x ( m ) ∣ θ ) p ( θ ) = a r g m a x θ ∏ i = 1 m p ( x ( i ) ∣ θ ) p ( θ ) \theta_{MAP}=\underset{\theta }{argmax} \ p(\theta|x^{(1)},...,x^{(m)}) = \underset{\theta }{argmax} \ p(x^{(1)},...,x^{(m)}|\theta)p(\theta) = \underset{\theta }{argmax}\prod_{i=1}^{m} \ p(x^{(i)}|\theta)p(\theta) θMAP=θargmax p(θ∣x(1),...,x(m))=θargmax p(x(1),...,x(m)∣θ)p(θ)=θargmaxi=1∏m p(x(i)∣θ)p(θ)
只涉及到贝叶斯估计的分子部分
下面来看一个例子(来源于 deepshare.net):
频率派统计(最大似然)
假设从不同超市调研得到西瓜的价格为(2.0,1.8,2.2,1.9,2.1)
价格
X
X
X~高斯分布,则可以用最大似然估计算出,西瓜的价格均值等于样本的均值,也即 2.0元
贝叶斯派统计(最大后验)
假设从不同超市调研得到西瓜的价格为(2.0,1.8,2.2,1.9,2.1)(2019年)
同时还统计得到前几年的西瓜价格如下:
年份 | 价格(元) |
---|---|
2018 | 1.5 |
2017 | 1.3 |
2016 | 1.2 |
2015 | 1.1 |
2014 | 1.2 |
我们先根据往年的数据,计算出先验概率,假如 μ \mu μ 是服从正太分布的(这里当然也可以假设为其它分布,例如均匀分布)
2014-2018 年西瓜的均值为 1.26,方差为 0.13564659966250536,我们近似一下为 0.1
p ( μ ) = 1 2 π 0.1 e − ( μ − 1.26 ) 2 0.02 p(\mu) = \frac{1}{\sqrt{2\pi}0.1}e^{-\frac{(\mu-1.26)^2}{0.02}} p(μ)=2π0.11e−0.02(μ−1.26)2
最大后验概率的求法如下
μ M A P = a r g m a x μ ∏ i = 1 m p ( x ( i ) ∣ μ ) p ( μ ) = a r g m a x μ ∏ i = 1 5 { 1 2 π σ e − ( x ( i ) − μ ) 2 2 σ 2 } 1 2 π 0.1 e − ( μ − 1.26 ) 2 0.02 \begin{aligned} \mu_{MAP} &= \underset{\mu}{argmax}\prod_{i=1}^{m} \ p(x^{(i)}|\mu)p(\mu) \\ & = \underset{\mu}{argmax}\prod_{i=1}^{5} \{ \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x^{(i)} - \mu)^2}{2\sigma^2}}\} \frac{1}{\sqrt{2\pi}0.1}e^{-\frac{(\mu-1.26)^2}{0.02}} \end{aligned} μMAP=μargmaxi=1∏m p(x(i)∣μ)p(μ)=μargmaxi=1∏5{2πσ1e−2σ2(x(i)−μ)2}2π0.11e−0.02(μ−1.26)2
取对数,对 μ \mu μ 求偏导,令偏导为0,可以计算出 μ \mu μ 的值
【补充】
最小二乘法的矩阵形式
Y = W T X Y = W^TX Y=WTX
X
=
(
W
T
W
)
−
1
W
T
Y
X = (W^TW)^{-1}W^TY
X=(WTW)−1WTY
W
=
(
X
T
X
)
−
1
X
T
Y
W=(X^TX)^{-1}X^TY
W=(XTX)−1XTY
示例可以参考 最小二乘法–多特征(矩阵形式)