1. MLE定义[极大似然估计]
Maximum likelihood estimation 简称 MLE,常常叫为 极大似然估计,通俗的讲就是 ,利用已知的样本结果信息,反推最具可能[最大概率]导致这些样本结果出现的模型参数值;已知样本数据,推模型和参数,那就属于统计的范畴了。
1.1 极大似然估计的意义
似然函数的直观意义:用来刻画参数 θ 与 数 据 的 匹 配 程 度 \theta与数据的匹配程度 θ与数据的匹配程度
1.2 离散型概率模型
L ( θ ) = ∏ i = 1 N P θ ( X i = x i ) ; 注 : X i 表 示 统 计 量 , x i 表 示 观 测 值 L(\theta)=\prod_{i=1}^{N}P_{\theta}(X_i=x_i);注:X_i 表示统计量,x_i表示观测值 L(θ)=∏i=1NPθ(Xi=xi);注:Xi表示统计量,xi表示观测值
1.3 连续型概率模型
L ( θ ) = ∏ i = 1 N f ( x i , θ ) ; L(\theta)=\prod_{i=1}^{N}f(x_i,\theta); L(θ)=∏i=1Nf(xi,θ);
1.4 举例:
X | 1 | 2 |
---|---|---|
P | θ \theta θ | 1 − θ 1-\theta 1−θ |
说明:我们假设数据X有两个值,X=1或 X=2 ,假设 X=1 发生的概率为
θ
\theta
θ,X=2发生的概率为
1
−
θ
1-\theta
1−θ;假设有一个样本总和中X=1发生了
N
1
次
,
X
=
2
发
生
了
N
2
次
,
总
共
发
生
了
N
=
N
1
+
N
2
次
N_1次,X=2发生了N_2次,总共发生了N=N_1+N_2次
N1次,X=2发生了N2次,总共发生了N=N1+N2次,那么我们从直观的感觉可以得出,X=1发生的概率就是
θ
=
N
1
/
N
;
[
这
个
大
家
一
眼
就
能
看
出
来
]
\theta = N_1/N;[这个大家一眼就能看出来]
θ=N1/N;[这个大家一眼就能看出来]
那么科学家们就想,怎么样才能通过一种方法来表达这种直觉,让统计更加像科学,而不是一种感觉,那么就产生了极大似然估计MLE,这种理论来解释这种感觉:
那么我们用似然函数
L
(
θ
)
来
表
达
这
个
事
件
,
即
:
X
=
1
发
生
N
1
次
,
X
=
2
发
生
N
2
次
L(\theta)来表达这个事件,即:X=1发生 N_1次,X=2发生N_2次
L(θ)来表达这个事件,即:X=1发生N1次,X=2发生N2次
L
(
θ
)
=
θ
N
1
(
1
−
θ
)
N
2
这
个
很
简
单
的
表
达
吧
L(\theta)={\theta}^{N_1}{(1-\theta)^{N_2}} 这个很简单的表达吧
L(θ)=θN1(1−θ)N2这个很简单的表达吧
我们这个事件在现实样本中已经发生了,那么它的概率应该为1,毕竟我们是得到这个样本总和的[X=1发生 N_1次,X=2发生N_2次]这是一个已知条件,那么,既然
L
(
θ
)
L(\theta)
L(θ)没办法在计算中达到1,那么我们就算算怎样使得
L
(
θ
)
L(\theta)
L(θ)取得最大吧。这样就能够让这个值更加逼近现实的样本,使得它更加符合样本这个事实
1.4.1求最大值取 L ( θ ) L(\theta) L(θ)的对数
log L ( θ ) = N 1 log θ + N 2 log ( 1 − θ ) \log L(\theta) = N_1{\log}{\theta}+N_2{\log}{(1-\theta)} logL(θ)=N1logθ+N2log(1−θ)
1.4.2 函 数 L ( θ ) 对 θ 求 偏 导 , 并 令 其 为 零 : 函数L(\theta)对\theta求偏导,并令其为零: 函数L(θ)对θ求偏导,并令其为零:
∂
L
(
θ
)
∂
θ
=
N
1
/
θ
+
N
2
/
(
θ
−
1
)
=
0
\frac{\partial {L(\theta)} }{\partial \theta}=N_1/{\theta}+N_2/(\theta-1)=0
∂θ∂L(θ)=N1/θ+N2/(θ−1)=0
解
出
来
的
θ
^
=
N
1
/
N
解出来的\hat{\theta}=N_1/N
解出来的θ^=N1/N
那么我们就可以看出来,用极大似然估计MLE求出来的
θ
^
\hat{\theta}
θ^就跟用直觉看出来的
θ
\theta
θ一模一样了,是不是很神奇!!!
总结:用极大似然估计估计法求出来的参数可以最大形式的去匹配已经发生了的数据集合,两者具有更好的相似性。
2. MAP定义[最大后验估计]
2.1贝叶斯公式&最大后验估计来源
P
(
θ
∣
X
0
)
=
P
(
X
0
∣
θ
)
P
(
θ
)
P
(
X
0
)
P(\theta|X_0)=\frac{P(X_0|\theta)P(\theta)}{P(X_0)}
P(θ∣X0)=P(X0)P(X0∣θ)P(θ)
1.
P
(
θ
∣
X
0
)
:
后
验
估
计
,
在
一
定
样
本
条
件
下
求
θ
;
1. P(\theta|X_0):后验估计,在一定样本条件下求\theta;
1.P(θ∣X0):后验估计,在一定样本条件下求θ;
2.
P
(
X
0
∣
θ
)
:
极
大
似
然
估
计
;
2.P(X_0|\theta):极大似然估计;
2.P(X0∣θ):极大似然估计;
3.
P
(
θ
)
:
先
验
3.P(\theta):先验
3.P(θ):先验
最
大
后
验
概
率
估
计
则
是
想
求
θ
,
使
P
(
X
0
∣
θ
)
P
(
θ
)
最
大
。
当
X
0
的
值
已
经
由
于
实
验
出
来
了
,
P
(
X
0
)
最大后验概率估计则是想求\theta,使P(X_0 | \theta) P(\theta)最 大。当X_0的值已经由于实验出来了,P(X_0)
最大后验概率估计则是想求θ,使P(X0∣θ)P(θ)最大。当X0的值已经由于实验出来了,P(X0)是已知值,所以上式可以去掉分母,
X
0
X_0
X0已经明确,那么要求
θ
\theta
θ取什么值使得
P
(
θ
∣
X
0
)
P(\theta|X_0)
P(θ∣X0)取得最大值,所以叫最大后验估计
2.2 最大后验估计MAP和极大似然估计MLE区别
2.2.1
最
大
似
然
估
计
M
L
E
是
求
参
数
θ
,
使
似
然
函
数
p
(
X
0
∣
θ
)
最
大
。
2.2.1最大似然估计MLE是求参数\theta, 使似然函数p(X_0|\theta)最大。
2.2.1最大似然估计MLE是求参数θ,使似然函数p(X0∣θ)最大。
MLE认为:θ是非随机变量或者分布未知的随机变量,认为P(θ)均匀分布的,即该概率是一个固定值,P(θ)=C,所以其目标为:
θ
^
M
L
E
=
θ
a
r
g
m
a
x
P
(
X
∣
θ
)
C
=
θ
a
r
g
m
a
x
P
(
X
∣
θ
)
\hat{\theta}_{MLE}=\mathop{}_{\theta}^{argmax}P(X|\theta)C=\mathop{}_{\theta}^{argmax}P(X|\theta)
θ^MLE=θargmaxP(X∣θ)C=θargmaxP(X∣θ)
2.2.2
最
大
后
验
概
率
估
计
M
A
P
则
是
想
求
θ
使
得
p
(
X
0
∣
θ
)
p
(
θ
)
最
大
2.2.2最大后验概率估计MAP则是想求\theta使得p(X_0|\theta)p(\theta)最大
2.2.2最大后验概率估计MAP则是想求θ使得p(X0∣θ)p(θ)最大
MAP认为:θ是一个随机变量,其先验概率密度函数是已知的,为P(θ),所以其目标为:
θ
^
M
A
P
=
θ
a
r
g
m
a
x
P
(
X
∣
θ
)
P
(
θ
)
\hat{\theta}_{MAP}=\mathop{}_{\theta}^{argmax}P(X|\theta)P(\theta)
θ^MAP=θargmaxP(X∣θ)P(θ)
MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布,或者说。MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。
3.岭回归下的贝叶斯角度思考
3.1数据的定义
我们知道岭回归矩阵表达如下:
J
(
W
)
=
∑
i
=
1
N
∣
∣
W
T
x
i
−
y
i
∣
∣
2
+
λ
W
T
W
J(W)=\sum_{i=1}^{N}{||W^Tx_i-y_i||^2+\lambda W^TW}
J(W)=i=1∑N∣∣WTxi−yi∣∣2+λWTW
我们假设数据中包含一个噪声,它服从高斯分布
ϵ
\epsilon
ϵ ~ N(0,
σ
2
{\sigma}^2
σ2 ) ,它的期望为零是为了使得后续方便运算,由于
Y
=
W
T
X
+
ϵ
;
所
以
Y
服
从
如
下
分
布
P
(
Y
∣
X
,
W
)
∼
N
(
W
T
X
,
σ
2
)
:
可
得
如
下
公
式
(
似
然
)
:
Y=W^TX+\epsilon;所以Y服从如下分布P(Y|X,W) \sim N(W^TX,{\sigma}^2):可得如下公式(似然):
Y=WTX+ϵ;所以Y服从如下分布P(Y∣X,W)∼N(WTX,σ2):可得如下公式(似然):
P
(
Y
∣
W
)
=
1
2
π
σ
e
x
p
(
−
(
y
−
w
T
x
)
2
2
σ
2
)
P(Y|W)=\frac{1}{\sqrt{2\pi}\sigma}exp^{(-\frac{(y-w^Tx)^2}{2{\sigma}^2})}
P(Y∣W)=2πσ1exp(−2σ2(y−wTx)2)
我们假设先验W满足如下高斯分布:
W
∼
N
(
0
,
σ
0
2
)
W\sim N(0,{\sigma}^2_0)
W∼N(0,σ02),可得如下公式(先验):
P
(
W
)
=
1
2
π
σ
0
e
x
p
(
−
∣
∣
w
∣
∣
2
2
σ
0
2
)
P(W)=\frac{1}{\sqrt{2\pi}\sigma_0}exp^{(-\frac{||w||^2}{2{\sigma}^2_0})}
P(W)=2πσ01exp(−2σ02∣∣w∣∣2)
3.2 最大后验估计MAP表示岭回归
我们的目的是求
W
使
得
P
(
W
∣
Y
)
取
得
最
大
值
,
这
时
我
们
就
想
到
了
贝
叶
斯
公
式
W使得 P(W|Y)取得最大值,这时我们就想到了贝叶斯公式
W使得P(W∣Y)取得最大值,这时我们就想到了贝叶斯公式
P
(
W
∣
Y
)
=
P
(
Y
∣
W
)
P
(
W
)
P
(
Y
)
P(W|Y)=\frac{P(Y|W)P(W)}{P(Y)}
P(W∣Y)=P(Y)P(Y∣W)P(W)
注
:
目
的
是
:
W
^
=
w
a
r
g
m
a
x
P
(
W
∣
Y
)
注:目的是:\hat W = \mathop{}_{w}^{argmax}P(W|Y)
注:目的是:W^=wargmaxP(W∣Y)
其
中
样
本
Y
已
经
在
实
验
中
出
来
了
,
所
以
P
(
Y
)
已
知
且
确
定
其中样本Y已经在实验中出来了,所以P(Y)已知且确定
其中样本Y已经在实验中出来了,所以P(Y)已知且确定
W
^
=
w
a
r
g
m
a
x
P
(
Y
∣
W
)
P
(
W
)
,
所
以
,
为
了
简
便
运
算
,
我
们
对
上
式
进
行
取
对
数
运
算
\hat W= \mathop{}_{w}^{argmax}P(Y|W)P(W),所以,为了简便运算,我们对上式进行取对数运算
W^=wargmaxP(Y∣W)P(W),所以,为了简便运算,我们对上式进行取对数运算
W
^
=
w
a
r
g
m
a
x
P
(
W
∣
Y
)
=
1
2
π
σ
e
x
p
(
−
(
y
−
w
T
x
)
2
2
σ
2
)
1
2
π
σ
0
e
x
p
(
−
∣
∣
w
∣
∣
2
2
σ
0
2
)
\hat W= \mathop{}_{w}^{argmax}P(W|Y)=\frac{1}{\sqrt{2\pi}\sigma}exp^{(-\frac{(y-w^Tx)^2}{2{\sigma}^2})}\frac{1}{\sqrt{2\pi}\sigma_0}exp^{(-\frac{||w||^2}{2{\sigma}^2_0})}
W^=wargmaxP(W∣Y)=2πσ1exp(−2σ2(y−wTx)2)2πσ01exp(−2σ02∣∣w∣∣2)
W
^
=
log
(
1
2
π
σ
1
2
π
σ
0
)
−
(
(
y
−
w
T
x
)
2
2
σ
2
+
∣
∣
w
∣
∣
2
2
σ
0
2
)
\hat W=\log({\frac{1}{\sqrt{2\pi}\sigma}}{\frac{1}{\sqrt{2\pi}\sigma_0}})-(\frac{(y-w^Tx)^2}{2{\sigma}^2}+\frac{||w||^2}{2{\sigma_0}^2})
W^=log(2πσ12πσ01)−(2σ2(y−wTx)2+2σ02∣∣w∣∣2)
注:由于
log
(
1
2
π
σ
1
2
π
σ
0
)
为
常
量
,
所
以
在
求
最
大
值
W
时
可
以
忽
略
\log({\frac{1}{\sqrt{2\pi}\sigma}}{\frac{1}{\sqrt{2\pi}\sigma_0}})为常量,所以在求最大值W时可以忽略
log(2πσ12πσ01)为常量,所以在求最大值W时可以忽略
W
^
=
w
a
r
g
m
a
x
P
(
W
∣
Y
)
=
w
a
r
g
m
i
n
(
(
y
−
w
T
x
)
2
2
σ
2
+
∣
∣
w
∣
∣
2
2
σ
0
2
)
\hat W= \mathop{}_{w}^{argmax}P(W|Y)=\mathop{}_{w}^{argmin}(\frac{(y-w^Tx)^2}{2{\sigma}^2}+\frac{||w||^2}{2{\sigma_0}^2})
W^=wargmaxP(W∣Y)=wargmin(2σ2(y−wTx)2+2σ02∣∣w∣∣2)
整
理
上
式
可
得
:
同
时
乘
以
2
σ
2
:
整理上式可得:同时乘以2{\sigma}^2:
整理上式可得:同时乘以2σ2:
W
^
=
w
a
r
g
m
i
n
(
(
y
−
w
T
x
)
2
+
σ
2
σ
0
2
w
2
)
\hat W=\mathop{}_{w}^{argmin}((y-w^Tx)^2+\frac{{\sigma}2}{{\sigma_0}^2}w^2)
W^=wargmin((y−wTx)2+σ02σ2w2)
注
:
我
们
令
λ
=
σ
2
σ
0
2
;
那
么
上
式
可
以
变
成
如
下
:
注:我们令\lambda=\frac{{\sigma}2}{{\sigma_0}^2};那么上式可以变成如下:
注:我们令λ=σ02σ2;那么上式可以变成如下:
结
论
:
W
^
=
w
a
r
g
m
i
n
(
(
y
−
w
T
x
)
2
+
λ
w
2
)
重
点
!
!
!
!
!
!
结论:\hat W=\mathop{}_{w}^{argmin}((y-w^Tx)^2+\lambda w^2) 重点!!!!!!
结论:W^=wargmin((y−wTx)2+λw2)重点!!!!!!
你看这个表达式是不是跟正则化的岭回归表达式一模一样,真神奇呀!
4. 结论:
4.1 最小二乘估计LSE
最小二乘估计 ⇔ \Leftrightarrow ⇔极大似然估计(噪声为高斯分布),最小二乘估计隐藏了条件为,噪声为高斯分布
4.2正则化的最小二乘估计Regularized LSE即:岭回归
岭回归相当于最大后验估计(MAP),其中噪声 ϵ \epsilon ϵ为高斯分布(Guassian Distribution),并且先验W也服从高斯分布(Guassian Distribution)