MLE, MAP and LSM

最小二乘法(Least Squares Method)和最大似然估计(Maximum Likelihood Estimate)有内在的联系吗?本博客阐述的是二者之间的千丝万缕!

对于最小二乘,当从模型总体随机抽取 n n n 组样本观测值后,最合理的参数估计量应该使得模型能最好的拟合样本数据!

最大似然估计,当从模型总体随机抽取 n n n 组样本观测值后,最合理的参数估计量应该使得从模型中抽取该 n n n 组样本观测值的概率最大!

简单来说就是这样一个假定:我们所观察到的事件/样本,都是大概率事件,小概率事件我们“观察不到” (参考 如何简单形象的解释最大拟然估计?

1 最大似然估计法

X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是来自总体 X X X 的样本, x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 是样本值, θ \theta θ 是待估参数.

1.1 似然函数

定义:

对于离散型总体 X X X,设其概率分布为 P { X = a i } = p ( a i , θ ) , i = 1 , 2 , . . . P\{X=a_i\}=p(a_i,\theta),i=1,2,... P{X=ai}=p(ai,θ),i=1,2,...,称函数
L ( θ ) = L ( X 1 , X 2 , . . . , X n ; θ ) = ∏ i = 1 n p ( X i ; θ ) L(\theta) = L(X_1,X_2,...,X_n; \theta) = \prod_{i=1}^{n}p(X_i;\theta ) L(θ)=L(X1,X2,...,Xn;θ)=i=1np(Xi;θ)
为参数 θ \theta θ 的似然函数。

对于连续型总体 X X X,概率密度为 f ( x ; θ ) f(x;\theta) f(x;θ),则称函数
L ( θ ) = L ( X 1 , X 2 , . . . , X n ; θ ) = ∏ i = 1 n f ( X i ; θ ) L(\theta) = L(X_1,X_2,...,X_n; \theta) = \prod_{i=1}^{n}f(X_i;\theta ) L(θ)=L(X1,X2,...,Xn;θ)=i=1nf(Xi;θ)
为参数 θ \theta θ 的似然函数。

1.2 最大似然估计

定义:对于给定的样本值 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn),使似然函数 L ( x 1 , x 2 , . . . , x n ; θ ) L(x_1,x_2,...,x_n; \theta) L(x1,x2,...,xn;θ) 达到最大值的参数值 θ ^ = θ ^ ( x 1 , x 2 , . . . , x n ) \hat{\theta} = \hat{\theta}(x_1,x_2,...,x_n) θ^=θ^(x1,x2,...,xn) 称为未知参数 θ \theta θ最大似然估计值

相应的使似然函数 L ( X 1 , X 2 , . . . , X n ; θ ) L(X_1,X_2,...,X_n; \theta) L(X1,X2,...,Xn;θ) 达到最大值的参数值 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta} = \hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn) 称为未知参数 θ \theta θ最大似然估计量

一般统称为 θ \theta θ 的最大似然估计,称这种估计法为最大似然估计法

1.3 求解步骤

1)求似然函数
2)取对数(把乘法变成加法)
3)求最大值(一般令导数为0,区间内唯一驻点为最值)

1.4 Demo(高斯函数的均值和方差)

高斯分布 P ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 P(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} P(x)=2π σ1e2σ2(xμ)2

对于总体 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn

1)似然函数
L ( x 1 , x 2 , . . . , x n ; μ , σ ) = 1 2 π σ e − ( x 1 − μ ) 2 2 σ 2 ⋅ 1 2 π σ e − ( x 2 − μ ) 2 2 σ 2 . . . 1 2 π σ e − ( x n − μ ) 2 2 σ 2 L(x_1,x_2,...,x_n;\mu,\sigma) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_1-\mu)^2}{2\sigma^2}}\cdot\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_2-\mu)^2}{2\sigma^2}}...\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_n-\mu)^2}{2\sigma^2}} L(x1,x2,...,xn;μ,σ)=2π σ1e2σ2(x1μ)22π σ1e2σ2(x2μ)2...2π σ1e2σ2(xnμ)2

2)对数似然函数
l n L ( x 1 , x 2 , . . . , x n ; μ , σ ) = l n ( 1 2 π σ e − ( x 1 − μ ) 2 2 σ 2 ) + l n ( 1 2 π σ e − ( x 2 − μ ) 2 2 σ 2 ) + . . . + l n ( 1 2 π σ e − ( x n − μ ) 2 2 σ 2 ) = − n l n ( 2 π ) − n l n ( σ ) − ∑ i = 1 n ( x i − μ ) 2 2 σ 2 \begin{aligned} lnL(x_1,x_2,...,x_n;\mu,\sigma) &= ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_1-\mu)^2}{2\sigma^2}})+ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_2-\mu)^2}{2\sigma^2}})+...+ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_n-\mu)^2}{2\sigma^2}}) \\ &= -nln(\sqrt{2\pi}) - nln(\sigma) - \sum_{i=1}^{n}\frac{(x_i-\mu)^2}{2\sigma^2} \end{aligned} lnL(x1,x2,...,xn;μ,σ)=ln(2π σ1e2σ2(x1μ)2)+ln(2π σ1e2σ2(x2μ)2)+...+ln(2π σ1e2σ2(xnμ)2)=nln(2π )nln(σ)i=1n2σ2(xiμ)2

3)求最大值

对未知参数 μ \mu μ 求偏导
∂ l n L ( x 1 , x 2 , . . . , x n ; μ , σ ) ∂ μ = − ∑ i = 1 n x i − μ σ 2 \frac{\partial lnL(x_1,x_2,...,x_n;\mu,\sigma)}{\partial \mu} = -\sum_{i=1}^{n}\frac{x_i-\mu}{\sigma^2} μlnL(x1,x2,...,xn;μ,σ)=i=1nσ2xiμ

令偏导为零

∑ i = 1 n ( x i − μ ) = 0 ⇒ ∑ i = 1 n x i = n μ ⇒ μ ^ = 1 n ∑ i = 1 n x i \begin{aligned} &\sum_{i=1}^{n}(x_i-\mu) = 0 \\ \Rightarrow & \sum_{i=1}^{n}x_i = n\mu \\ \Rightarrow & \hat{\mu} = \frac{1}{n}\sum_{i=1}^{n}x_i \end{aligned} i=1n(xiμ)=0i=1nxi=nμμ^=n1i=1nxi

对未知参数 σ \sigma σ 求偏导

∂ l n L ( x 1 , x 2 , . . . , x n ; μ , σ ) ∂ σ = − n σ + ∑ i = 1 n ( x i − μ ) 2 σ 3 = − n σ + 1 σ 3 ∑ i = 1 n ( x i − μ ) 2 \frac{\partial lnL(x_1,x_2,...,x_n;\mu,\sigma)}{\partial \sigma} = -\frac{n}{\sigma} + \sum_{i=1}^{n}\frac{(x_i-\mu)^2}{\sigma^3} = -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^{n}(x_i-\mu)^2 σlnL(x1,x2,...,xn;μ,σ)=σn+i=1nσ3(xiμ)2=σn+σ31i=1n(xiμ)2

令偏导为零
− n σ + 1 σ 3 ∑ i = 1 n ( x i − μ ) 2 = 0 ⇒ σ ^ 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 \begin{aligned} & -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^{n}(x_i-\mu)^2 = 0 \\ \Rightarrow & \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 \end{aligned} σn+σ31i=1n(xiμ)2=0σ^2=n1i=1n(xiμ)2

综上所述,用最大似然估计法求出来的高斯分布的总体均值和方差如下:

μ = 1 n ∑ i = 1 n x i \mu = \frac{1}{n}\sum_{i=1}^{n}x_i μ=n1i=1nxi
σ 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 \sigma ^2= \frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 σ2=n1i=1n(xiμ)2

和高斯分布的总体均值和方差一致!


接下来我们看看样本均值和方差的定义:

X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是来自总体 X X X 的样本,则称

样本均值

X ˉ = 1 n ∑ i = 1 n X i \bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i Xˉ=n1i=1nXi

样本方差

S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2 S2=n11i=1n(XiXˉ)2

样本数字特征的性质

1)如果总体 X X X 具有数学期望 E ( X ) = μ E(X) = \mu E(X)=μ,则

E ( X ˉ ) = E ( X ) = μ E(\bar{X}) = E(X) = \mu E(Xˉ)=E(X)=μ

推导
E ( X ˉ ) = E ( 1 n ∑ i = 1 n X i ) = 1 n n μ = μ E(\bar{X}) = E(\frac{1}{n}\sum_{i=1}^{n}X_i) = \frac{1}{n}n\mu = \mu E(Xˉ)=E(n1i=1nXi)=n1nμ=μ

2)如果总体 X X X 具有方差 V a r ( X ) = σ 2 Var(X) = \sigma^2 Var(X)=σ2,则
V a r ( X ˉ ) = 1 n V a r ( X ) = σ 2 n Var(\bar{X}) = \frac{1}{n}Var(X) = \frac{\sigma^2}{n} Var(Xˉ)=n1Var(X)=nσ2
推导
V a r ( X ˉ ) = V a r ( 1 n ∑ i = 1 n X i ) = 1 n 2 n σ 2 = σ 2 n Var(\bar{X}) = Var(\frac{1}{n}\sum_{i=1}^{n}X_i) = \frac{1}{n^2}n\sigma^2 = \frac{\sigma^2}{n} Var(Xˉ)=Var(n1i=1nXi)=n21nσ2=nσ2

我的天?怎么变成 n − 1 n-1 n1 了?这里是总体均值的无偏估计(无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值)!参考 彻底理解样本方差为何除以n-1

下面我们来详细的分析一下来龙去脉!

无偏估计量的定义

θ ^ \hat{\theta} θ^ θ \theta θ 的估计量,如果 E ( θ ^ ) = θ E(\hat{\theta}) = \theta E(θ^)=θ,则称 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat{\theta} = \hat{\theta}(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn) 是未知参数 θ \theta θ 的无偏估计量!

以例子来说明,假如你想知道一所大学里学生的平均身高是多少,一个大学好几万人,全部统计有点不现实,但是你可以先随机挑选100个人,统计他们的身高,然后计算出他们的平均值,记为 X 1 ˉ \bar{X_1} X1ˉ。如果你只是把 X 1 ˉ \bar{X_1} X1ˉ 作为整体的身高平均值,误差肯定很大,因为你再随机挑选出100个人,身高平均值很可能就跟刚才计算的不同,为了使得统计结果更加精确,你需要多抽取几次,然后分别计算出他们的平均值,分别记为 X 1 ˉ , X 2 ˉ , . . . X n ˉ , \bar{X_1},\bar{X_2},...\bar{X_n}, X1ˉ,X2ˉ,...Xnˉ,:然后在把这些平均值,再做平均,记为 E ( X ) E(X) E(X),这样的结果肯定比只计算一次更加精确,随着重复抽取的次数增多,这个期望值会越来越接近总体均值 μ \mu μ,如果满足 E ( X ) = μ E(X) = \mu E(X)=μ,这就是一个无偏估计。(这段话来自 彻底理解样本方差为何除以n-1

如果样本方差除以的是 n n n,我们来看看它的均值和总体方差是否相等!

E ( S 2 ) = E ( 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ) = E ( 1 n ∑ i = 1 n ( ( X i − μ ) − ( X ˉ − μ ) ) 2 ) = E ( 1 n ∑ i = 1 n ( ( X i − μ ) 2 − 2 ( X i − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 ) ) = E ( 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ∑ i = 1 n ( X i − μ ) ( X ˉ − μ ) + 1 n ∑ i = 1 n ( X ˉ − μ ) 2 ) = E ( 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 ( X ˉ − μ ) 2 + ( X ˉ − μ ) 2 ) 已 知 1 n ∑ i = 1 n ( X i − μ ) = 1 n ∑ i = 1 n X i − 1 n n μ = X ˉ − μ = E ( 1 n ∑ i = 1 n ( X i − μ ) 2 − ( X ˉ − μ ) 2 ) = E ( σ 2 ) − E ( ( X ˉ − μ ) 2 ) ≤ σ 2 \begin{aligned} E(S^2) &= E( \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2) = E(\frac{1}{n}\sum_{i=1}^{n}((X_i- \mu) - (\bar{X}-\mu))^2)\\ &= E(\frac{1}{n}\sum_{i=1}^{n}((X_i- \mu) ^2- 2(X_i- \mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2))\\ &= E(\frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) ^2- \frac{2}{n}\sum_{i=1}^{n}(X_i- \mu)(\bar{X}-\mu)+\frac{1}{n}\sum_{i=1}^{n}(\bar{X}-\mu)^2)\\ &= E(\frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) ^2- 2(\bar{X}-\mu)^2+(\bar{X}-\mu)^2) \\ & 已知 \frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) = \frac{1}{n}\sum_{i=1}^{n}X_i- \frac{1}{n}n\mu = \bar{X} - \mu\\ &= E(\frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) ^2- (\bar{X}-\mu)^2) \\ &= E(\sigma^2)- E((\bar{X}-\mu)^2) \leq \sigma^2\\ \end{aligned} E(S2)=E(n1i=1n(XiXˉ)2)=E(n1i=1n((Xiμ)(Xˉμ))2)=E(n1i=1n((Xiμ)22(Xiμ)(Xˉμ)+(Xˉμ)2))=E(n1i=1n(Xiμ)2n2i=1n(Xiμ)(Xˉμ)+n1i=1n(Xˉμ)2)=E(n1i=1n(Xiμ)22(Xˉμ)2+(Xˉμ)2)n1i=1n(Xiμ)=n1i=1nXin1nμ=Xˉμ=E(n1i=1n(Xiμ)2(Xˉμ)2)=E(σ2)E((Xˉμ)2)σ2

可惜了,不满足无偏估计!对上面的式子继续化简

E ( S 2 ) = E ( σ 2 ) − E ( ( X ˉ − μ ) 2 ) = σ 2 − E ( ( X ˉ − μ ) 2 ) ( 参 考 前 面 样 本 数 字 特 征 的 性 质 ) = σ 2 − E ( ( X ˉ − E ( X ˉ ) ) 2 ) ( 方 差 的 定 义 ) = σ 2 − V a r ( X ˉ ) ( 参 考 前 面 样 本 数 字 特 征 的 性 质 ) = σ 2 − σ 2 n = n − 1 n σ 2 \begin{aligned} E(S^2) &=E(\sigma^2)- E((\bar{X}-\mu)^2)\\ &= \sigma^2- E((\bar{X}-\mu)^2) (参考前面样本数字特征的性质)\\ &= \sigma^2- E((\bar{X}-E(\bar{X}))^2)(方差的定义)\\ &= \sigma^2 - Var(\bar{X}) (参考前面样本数字特征的性质)\\ & = \sigma^2 - \frac{\sigma^2}{n} \\ & = \frac{n-1}{n} \sigma^2 \end{aligned}\\ E(S2)=E(σ2)E((Xˉμ)2)=σ2E((Xˉμ)2)=σ2E((XˉE(Xˉ))2)=σ2Var(Xˉ)=σ2nσ2=nn1σ2

OK,调整下 S 2 S^2 S2 的形式就可以得到无偏估计了!

E ( S 2 ⋅ n n − 1 ) = n n − 1 E ( S 2 ) = σ 2 E(S^2 \cdot \frac{n}{n-1}) = \frac{n}{n-1}E(S^2) = \sigma^2 E(S2n1n)=n1nE(S2)=σ2

hold on,hold on,DJ drop the beat,我们来计算一下修改后的样本方差是否是总体方差的无偏估计!

E ( S 2 ⋅ n n − 1 ) = E ( ⋅ n n − 1 1 n ∑ i = 1 n ( X i − X ˉ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( ( X i − μ ) − ( X ˉ − μ ) ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( ( X i − μ ) 2 − 2 ( X i − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 ) ) = E ( 1 n − 1 ∑ i = 1 n ( X i − μ ) 2 − 2 n − 1 ∑ i = 1 n ( X i − μ ) ( X ˉ − μ ) + 1 n − 1 ∑ i = 1 n ( X ˉ − μ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( X i − μ ) 2 − 2 n n − 1 ( X ˉ − μ ) 2 + n n − 1 ( X ˉ − μ ) 2 ) ( 因 为 1 n ∑ i = 1 n ( X i − μ ) = 1 n ∑ i = 1 n X i − 1 n n μ = X ˉ − μ ) = E ( 1 n − 1 ∑ i = 1 n ( X i − μ ) 2 − n n − 1 ( X ˉ − μ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( X i − μ ) 2 ) − E ( n n − 1 ( X ˉ − μ ) 2 ) = n n − 1 E ( 1 n ∑ i = 1 n ( X i − μ ) 2 ) − n n − 1 E ( ( X ˉ − μ ) 2 ) = n n − 1 σ 2 − n n − 1 ⋅ σ 2 n = σ 2 \begin{aligned} E(S^2\cdot \frac{n}{n-1}) &= E(\cdot \frac{n}{n-1} \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2) = E( \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2) \\ & = E(\frac{1}{n-1}\sum_{i=1}^{n}((X_i- \mu) - (\bar{X}-\mu))^2)\\ &= E(\frac{1}{n-1}\sum_{i=1}^{n}((X_i- \mu) ^2- 2(X_i- \mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2))\\ &= E(\frac{1}{n-1}\sum_{i=1}^{n}(X_i- \mu) ^2- \frac{2}{n-1}\sum_{i=1}^{n}(X_i- \mu)(\bar{X}-\mu)+\frac{1}{n-1}\sum_{i=1}^{n}(\bar{X}-\mu)^2)\\ &= E(\frac{1}{n-1}\sum_{i=1}^{n}(X_i- \mu) ^2- \frac{2n}{n-1}(\bar{X}-\mu)^2+\frac{n}{n-1}(\bar{X}-\mu)^2)(因为 \frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) = \frac{1}{n}\sum_{i=1}^{n}X_i- \frac{1}{n}n\mu = \bar{X} - \mu)\\ &= E(\frac{1}{n-1}\sum_{i=1}^{n}(X_i- \mu) ^2- \frac{n}{n-1}(\bar{X}-\mu)^2) \\ &=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_i- \mu) ^2)- E(\frac{n}{n-1}(\bar{X}-\mu)^2) \\ &=\frac{n}{n-1}E(\frac{1}{n}\sum_{i=1}^{n}(X_i- \mu) ^2)- \frac{n}{n-1}E((\bar{X}-\mu)^2) \\ &= \frac{n}{n-1}\sigma^2 - \frac{n}{n-1} \cdot \frac{\sigma^2}{n} &= \sigma^2 \end{aligned} E(S2n1n)=E(n1nn1i=1n(XiXˉ)2)=E(n11i=1n(XiXˉ)2)=E(n11i=1n((Xiμ)(Xˉμ))2)=E(n11i=1n((Xiμ)22(Xiμ)(Xˉμ)+(Xˉμ)2))=E(n11i=1n(Xiμ)2n12i=1n(Xiμ)(Xˉμ)+n11i=1n(Xˉμ)2)=E(n11i=1n(Xiμ)2n12n(Xˉμ)2+n1n(Xˉμ)2)n1i=1n(Xiμ)=n1i=1nXin1nμ=Xˉμ=E(n11i=1n(Xiμ)2n1n(Xˉμ)2)=E(n11i=1n(Xiμ)2)E(n1n(Xˉμ)2)=n1nE(n1i=1n(Xiμ)2)n1nE((Xˉμ)2)=n1nσ2n1nnσ2=σ2

所以,样本的方差公式为:
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2 S2=n11i=1n(XiXˉ)2
目的是得到总体方差的无偏估计!

2 最大似然估计和最小二乘法的联系

x 1 , x 2 , . . . , x n , x i ∈ R m x_1,x_2,...,x_n, x_i \in \mathbb{R}^m x1,x2,...,xn,xiRm

y 1 , y 2 , . . . , y n , y i ∈ R 1 y_1,y_2,...,y_n, y_i \in \mathbb{R}^1 y1,y2,...,yn,yiR1

y i ^ = W T x i , W ∈ R m \hat{y_i} = W^Tx_i,W \in \mathbb{R}^m yi^=WTxi,WRm

最小二乘法需要用 y i ^ \hat{y_i} yi^ 拟合 y i y_i yi,使得误差 ∑ e i 2 = ∑ ( y i − y i ^ ) 2 \sum e_i^2 = \sum(y_i -\hat{y_i})^2 ei2=(yiyi^)2 越小越好

对于最大似然估计

假设误差 e i ∼ N ( 0 , σ 2 ) e_i \sim N(0,\sigma^2) eiN(0,σ2) 服从正态(高斯)分布(误差的均值为0,方差越小越好)

e i ∼ 1 2 π σ e − e i 2 2 σ 2 e_i \sim \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{e_i^2}{2\sigma^2}} ei2π σ1e2σ2ei2

对数释然

l n L ( x 1 , x 2 , . . . , x n ; σ ) = l n ( 1 2 π σ e − e i 2 2 σ 2 ) + l n ( 1 2 π σ e − e i 2 2 σ 2 ) + . . . + l n ( 1 2 π σ e − e i 2 2 σ 2 ) = − n l n ( 2 π ) − n l n ( σ ) − ∑ i = 1 n e i 2 2 σ 2 \begin{aligned} lnL(x_1,x_2,...,x_n;\sigma) &= ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{e_i^2}{2\sigma^2}})+ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{e_i^2}{2\sigma^2}})+...+ln(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{e_i^2}{2\sigma^2}}) \\ &= -nln(\sqrt{2\pi}) - nln(\sigma) - \sum_{i=1}^{n}\frac{e_i^2}{2\sigma^2} \end{aligned} lnL(x1,x2,...,xn;σ)=ln(2π σ1e2σ2ei2)+ln(2π σ1e2σ2ei2)+...+ln(2π σ1e2σ2ei2)=nln(2π )nln(σ)i=1n2σ2ei2

对未知参数 σ \sigma σ 求偏导

∂ l n L ( x 1 , x 2 , . . . , x n ; σ ) ∂ σ = − n σ + 1 σ 3 ∑ i = 1 n e i 2 \frac{\partial lnL(x_1,x_2,...,x_n;\sigma)}{\partial \sigma} = -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^{n}e_i^2 σlnL(x1,x2,...,xn;σ)=σn+σ31i=1nei2

令偏导为零
− n σ + 1 σ 3 ∑ i = 1 n e i 2 = 0 ⇒ σ ^ 2 = 1 n ∑ i = 1 n e i 2 \begin{aligned} & -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^{n}e_i^2 = 0 \\ \Rightarrow & \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}e_i^2 \end{aligned} σn+σ31i=1nei2=0σ^2=n1i=1nei2

我们知道 e i ∼ N ( 0 , σ 2 ) e_i \sim N(0,\sigma^2) eiN(0,σ2),误差的均值为 0,方差越小越好(为0最好,一模一样)

这和最小二乘法 min e i 2 e_i^2 ei2 殊途同归!

3 最大后验概率估计

Maximum a posteriori(MAP)

说起最大后验概率,就不得不说起,统计学的两大派系:

  • 频率派统计(frequentist statistics)
  • 贝叶斯统计(Bayesian statistics)

最大似然估计属于频率派统计,最大后验概率估计属于贝叶斯统计的范畴!两者的主要区别如下:

  • 最大似然方法预测时使用 θ \theta θ 的点估计( θ \theta θ 是固定的,只是值未知)

  • 贝叶斯方法使用的 θ \theta θ 的全分布( θ \theta θ 是随机变量,即 θ \theta θ 具有某种概率分布,称为先验分布)

最大后验概率估计选择后验概率最大的点,或者概率密度最大的点,因为贝叶斯公式很多情况不是那么好计算,但还是保留了先验概率,防止退化成最大似然估计!

最大似然估计:
θ M L = a r g m a x θ ∏ i = 1 m p ( x ( i ) ; θ ) \theta_{ML}=\underset{\theta }{argmax}\prod_{i=1}^{m}p(x^{(i)};\theta ) θML=θargmaxi=1mp(x(i);θ)

条件最大似然估计:

θ M L = a r g m a x θ ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) \theta_{ML}=\underset{\theta }{argmax}\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta ) θML=θargmaxi=1mp(y(i)x(i);θ)

贝叶斯估计:
p ( θ ∣ x ( 1 ) , . . . , x ( m ) ) = p ( x ( 1 ) , . . . , x ( m ) ∣ θ ) p ( θ ) p ( x ( 1 ) , . . . , x ( m ) ) p(\theta|x^{(1)},...,x^{(m)}) = \frac{p(x^{(1)},...,x^{(m) }|\theta)p(\theta)}{p(x^{(1)},...,x^{(m) })} p(θx(1),...,x(m))=p(x(1),...,x(m))p(x(1),...,x(m)θ)p(θ)

分母的计算是,遍历所有的 θ \theta θ 算一次分子,显然,很多情况下很难计算的!

最大后验概率估计:

θ M A P = a r g m a x θ   p ( θ ∣ x ( 1 ) , . . . , x ( m ) ) = a r g m a x θ   p ( x ( 1 ) , . . . , x ( m ) ∣ θ ) p ( θ ) = a r g m a x θ ∏ i = 1 m   p ( x ( i ) ∣ θ ) p ( θ ) \theta_{MAP}=\underset{\theta }{argmax} \ p(\theta|x^{(1)},...,x^{(m)}) = \underset{\theta }{argmax} \ p(x^{(1)},...,x^{(m)}|\theta)p(\theta) = \underset{\theta }{argmax}\prod_{i=1}^{m} \ p(x^{(i)}|\theta)p(\theta) θMAP=θargmax p(θx(1),...,x(m))=θargmax p(x(1),...,x(m)θ)p(θ)=θargmaxi=1m p(x(i)θ)p(θ)

只涉及到贝叶斯估计的分子部分


下面来看一个例子(来源于 deepshare.net):

频率派统计(最大似然)

假设从不同超市调研得到西瓜的价格为(2.0,1.8,2.2,1.9,2.1)
价格 X X X~高斯分布,则可以用最大似然估计算出,西瓜的价格均值等于样本的均值,也即 2.0元

贝叶斯派统计(最大后验)

假设从不同超市调研得到西瓜的价格为(2.0,1.8,2.2,1.9,2.1)(2019年)
同时还统计得到前几年的西瓜价格如下:

年份价格(元)
20181.5
20171.3
20161.2
20151.1
20141.2

我们先根据往年的数据,计算出先验概率,假如 μ \mu μ 是服从正太分布的(这里当然也可以假设为其它分布,例如均匀分布)

2014-2018 年西瓜的均值为 1.26,方差为 0.13564659966250536,我们近似一下为 0.1

p ( μ ) = 1 2 π 0.1 e − ( μ − 1.26 ) 2 0.02 p(\mu) = \frac{1}{\sqrt{2\pi}0.1}e^{-\frac{(\mu-1.26)^2}{0.02}} p(μ)=2π 0.11e0.02(μ1.26)2

最大后验概率的求法如下

μ M A P = a r g m a x μ ∏ i = 1 m   p ( x ( i ) ∣ μ ) p ( μ ) = a r g m a x μ ∏ i = 1 5 { 1 2 π σ e − ( x ( i ) − μ ) 2 2 σ 2 } 1 2 π 0.1 e − ( μ − 1.26 ) 2 0.02 \begin{aligned} \mu_{MAP} &= \underset{\mu}{argmax}\prod_{i=1}^{m} \ p(x^{(i)}|\mu)p(\mu) \\ & = \underset{\mu}{argmax}\prod_{i=1}^{5} \{ \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x^{(i)} - \mu)^2}{2\sigma^2}}\} \frac{1}{\sqrt{2\pi}0.1}e^{-\frac{(\mu-1.26)^2}{0.02}} \end{aligned} μMAP=μargmaxi=1m p(x(i)μ)p(μ)=μargmaxi=15{2π σ1e2σ2(x(i)μ)2}2π 0.11e0.02(μ1.26)2

取对数,对 μ \mu μ 求偏导,令偏导为0,可以计算出 μ \mu μ 的值

【补充】

最小二乘法的矩阵形式

Y = W T X Y = W^TX Y=WTX

X = ( W T W ) − 1 W T Y X = (W^TW)^{-1}W^TY X=(WTW)1WTY
W = ( X T X ) − 1 X T Y W=(X^TX)^{-1}X^TY W=(XTX)1XTY

示例可以参考 最小二乘法–多特征(矩阵形式)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值