4-线性回归-岭回归之概率思考

1. MLE定义[极大似然估计]

Maximum likelihood estimation 简称 MLE,常常叫为 极大似然估计,通俗的讲就是 ,利用已知的样本结果信息,反推最具可能[最大概率]导致这些样本结果出现的模型参数值;已知样本数据,推模型和参数,那就属于统计的范畴了。

1.1 极大似然估计的意义

似然函数的直观意义:用来刻画参数 θ 与 数 据 的 匹 配 程 度 \theta与数据的匹配程度 θ

1.2 离散型概率模型

L ( θ ) = ∏ i = 1 N P θ ( X i = x i ) ; 注 : X i 表 示 统 计 量 , x i 表 示 观 测 值 L(\theta)=\prod_{i=1}^{N}P_{\theta}(X_i=x_i);注:X_i 表示统计量,x_i表示观测值 L(θ)=i=1NPθ(Xi=xi);Xixi

1.3 连续型概率模型

L ( θ ) = ∏ i = 1 N f ( x i , θ ) ; L(\theta)=\prod_{i=1}^{N}f(x_i,\theta); L(θ)=i=1Nf(xi,θ);

1.4 举例:

X12
P θ \theta θ 1 − θ 1-\theta 1θ

说明:我们假设数据X有两个值,X=1或 X=2 ,假设 X=1 发生的概率为 θ \theta θ,X=2发生的概率为 1 − θ 1-\theta 1θ;假设有一个样本总和中X=1发生了 N 1 次 , X = 2 发 生 了 N 2 次 , 总 共 发 生 了 N = N 1 + N 2 次 N_1次,X=2发生了N_2次,总共发生了N=N_1+N_2次 N1X=2N2N=N1+N2,那么我们从直观的感觉可以得出,X=1发生的概率就是 θ = N 1 / N ; [ 这 个 大 家 一 眼 就 能 看 出 来 ] \theta = N_1/N;[这个大家一眼就能看出来] θ=N1/N;[]
那么科学家们就想,怎么样才能通过一种方法来表达这种直觉,让统计更加像科学,而不是一种感觉,那么就产生了极大似然估计MLE,这种理论来解释这种感觉:
那么我们用似然函数 L ( θ ) 来 表 达 这 个 事 件 , 即 : X = 1 发 生 N 1 次 , X = 2 发 生 N 2 次 L(\theta)来表达这个事件,即:X=1发生 N_1次,X=2发生N_2次 L(θ)X=1N1X=2N2
L ( θ ) = θ N 1 ( 1 − θ ) N 2 这 个 很 简 单 的 表 达 吧 L(\theta)={\theta}^{N_1}{(1-\theta)^{N_2}} 这个很简单的表达吧 L(θ)=θN1(1θ)N2
我们这个事件在现实样本中已经发生了,那么它的概率应该为1,毕竟我们是得到这个样本总和的[X=1发生 N_1次,X=2发生N_2次]这是一个已知条件,那么,既然 L ( θ ) L(\theta) L(θ)没办法在计算中达到1,那么我们就算算怎样使得 L ( θ ) L(\theta) L(θ)取得最大吧。这样就能够让这个值更加逼近现实的样本,使得它更加符合样本这个事实

1.4.1求最大值取 L ( θ ) L(\theta) L(θ)的对数

log ⁡ L ( θ ) = N 1 log ⁡ θ + N 2 log ⁡ ( 1 − θ ) \log L(\theta) = N_1{\log}{\theta}+N_2{\log}{(1-\theta)} logL(θ)=N1logθ+N2log(1θ)

1.4.2 函 数 L ( θ ) 对 θ 求 偏 导 , 并 令 其 为 零 : 函数L(\theta)对\theta求偏导,并令其为零: L(θ)θ,

∂ L ( θ ) ∂ θ = N 1 / θ + N 2 / ( θ − 1 ) = 0 \frac{\partial {L(\theta)} }{\partial \theta}=N_1/{\theta}+N_2/(\theta-1)=0 θL(θ)=N1/θ+N2/(θ1)=0
解 出 来 的 θ ^ = N 1 / N 解出来的\hat{\theta}=N_1/N θ^=N1/N
那么我们就可以看出来,用极大似然估计MLE求出来的 θ ^ \hat{\theta} θ^就跟用直觉看出来的 θ \theta θ一模一样了,是不是很神奇!!!
总结:用极大似然估计估计法求出来的参数可以最大形式的去匹配已经发生了的数据集合,两者具有更好的相似性。

2. MAP定义[最大后验估计]

2.1贝叶斯公式&最大后验估计来源

P ( θ ∣ X 0 ) = P ( X 0 ∣ θ ) P ( θ ) P ( X 0 ) P(\theta|X_0)=\frac{P(X_0|\theta)P(\theta)}{P(X_0)} P(θX0)=P(X0)P(X0θ)P(θ)
1. P ( θ ∣ X 0 ) : 后 验 估 计 , 在 一 定 样 本 条 件 下 求 θ ; 1. P(\theta|X_0):后验估计,在一定样本条件下求\theta; 1.P(θX0):θ;
2. P ( X 0 ∣ θ ) : 极 大 似 然 估 计 ; 2.P(X_0|\theta):极大似然估计; 2.P(X0θ):;
3. P ( θ ) : 先 验 3.P(\theta):先验 3.P(θ):
最 大 后 验 概 率 估 计 则 是 想 求 θ , 使 P ( X 0 ∣ θ ) P ( θ ) 最 大 。 当 X 0 的 值 已 经 由 于 实 验 出 来 了 , P ( X 0 ) 最大后验概率估计则是想求\theta,使P(X_0 | \theta) P(\theta)最 大。当X_0的值已经由于实验出来了,P(X_0) θ,使P(X0θ)P(θ)X0P(X0)是已知值,所以上式可以去掉分母, X 0 X_0 X0已经明确,那么要求 θ \theta θ取什么值使得 P ( θ ∣ X 0 ) P(\theta|X_0) P(θX0)取得最大值,所以叫最大后验估计

2.2 最大后验估计MAP和极大似然估计MLE区别

2.2.1 最 大 似 然 估 计 M L E 是 求 参 数 θ , 使 似 然 函 数 p ( X 0 ∣ θ ) 最 大 。 2.2.1最大似然估计MLE是求参数\theta, 使似然函数p(X_0|\theta)最大。 2.2.1MLEθ,使p(X0θ)
MLE认为:θ是非随机变量或者分布未知的随机变量,认为P(θ)均匀分布的,即该概率是一个固定值,P(θ)=C,所以其目标为:
θ ^ M L E = θ a r g m a x P ( X ∣ θ ) C = θ a r g m a x P ( X ∣ θ ) \hat{\theta}_{MLE}=\mathop{}_{\theta}^{argmax}P(X|\theta)C=\mathop{}_{\theta}^{argmax}P(X|\theta) θ^MLE=θargmaxP(Xθ)C=θargmaxP(Xθ)
2.2.2 最 大 后 验 概 率 估 计 M A P 则 是 想 求 θ 使 得 p ( X 0 ∣ θ ) p ( θ ) 最 大 2.2.2最大后验概率估计MAP则是想求\theta使得p(X_0|\theta)p(\theta)最大 2.2.2MAPθ使p(X0θ)p(θ)
MAP认为:θ是一个随机变量,其先验概率密度函数是已知的,为P(θ),所以其目标为:
θ ^ M A P = θ a r g m a x P ( X ∣ θ ) P ( θ ) \hat{\theta}_{MAP}=\mathop{}_{\theta}^{argmax}P(X|\theta)P(\theta) θ^MAP=θargmaxP(Xθ)P(θ)
MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布,或者说。MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。

3.岭回归下的贝叶斯角度思考

3.1数据的定义

我们知道岭回归矩阵表达如下:
J ( W ) = ∑ i = 1 N ∣ ∣ W T x i − y i ∣ ∣ 2 + λ W T W J(W)=\sum_{i=1}^{N}{||W^Tx_i-y_i||^2+\lambda W^TW} J(W)=i=1NWTxiyi2+λWTW
我们假设数据中包含一个噪声,它服从高斯分布 ϵ \epsilon ϵ ~ N(0, σ 2 {\sigma}^2 σ2 ) ,它的期望为零是为了使得后续方便运算,由于 Y = W T X + ϵ ; 所 以 Y 服 从 如 下 分 布 P ( Y ∣ X , W ) ∼ N ( W T X , σ 2 ) : 可 得 如 下 公 式 ( 似 然 ) : Y=W^TX+\epsilon;所以Y服从如下分布P(Y|X,W) \sim N(W^TX,{\sigma}^2):可得如下公式(似然): Y=WTX+ϵ;YP(YX,W)N(WTX,σ2)()
P ( Y ∣ W ) = 1 2 π σ e x p ( − ( y − w T x ) 2 2 σ 2 ) P(Y|W)=\frac{1}{\sqrt{2\pi}\sigma}exp^{(-\frac{(y-w^Tx)^2}{2{\sigma}^2})} P(YW)=2π σ1exp(2σ2(ywTx)2)
我们假设先验W满足如下高斯分布: W ∼ N ( 0 , σ 0 2 ) W\sim N(0,{\sigma}^2_0) WN(0,σ02),可得如下公式(先验):
P ( W ) = 1 2 π σ 0 e x p ( − ∣ ∣ w ∣ ∣ 2 2 σ 0 2 ) P(W)=\frac{1}{\sqrt{2\pi}\sigma_0}exp^{(-\frac{||w||^2}{2{\sigma}^2_0})} P(W)=2π σ01exp(2σ02w2)

3.2 最大后验估计MAP表示岭回归

我们的目的是求 W 使 得 P ( W ∣ Y ) 取 得 最 大 值 , 这 时 我 们 就 想 到 了 贝 叶 斯 公 式 W使得 P(W|Y)取得最大值,这时我们就想到了贝叶斯公式 W使P(WY)
P ( W ∣ Y ) = P ( Y ∣ W ) P ( W ) P ( Y ) P(W|Y)=\frac{P(Y|W)P(W)}{P(Y)} P(WY)=P(Y)P(YW)P(W)
注 : 目 的 是 : W ^ = w a r g m a x P ( W ∣ Y ) 注:目的是:\hat W = \mathop{}_{w}^{argmax}P(W|Y) :W^=wargmaxP(WY)
其 中 样 本 Y 已 经 在 实 验 中 出 来 了 , 所 以 P ( Y ) 已 知 且 确 定 其中样本Y已经在实验中出来了,所以P(Y)已知且确定 YP(Y)
W ^ = w a r g m a x P ( Y ∣ W ) P ( W ) , 所 以 , 为 了 简 便 运 算 , 我 们 对 上 式 进 行 取 对 数 运 算 \hat W= \mathop{}_{w}^{argmax}P(Y|W)P(W),所以,为了简便运算,我们对上式进行取对数运算 W^=wargmaxP(YW)P(W),便
W ^ = w a r g m a x P ( W ∣ Y ) = 1 2 π σ e x p ( − ( y − w T x ) 2 2 σ 2 ) 1 2 π σ 0 e x p ( − ∣ ∣ w ∣ ∣ 2 2 σ 0 2 ) \hat W= \mathop{}_{w}^{argmax}P(W|Y)=\frac{1}{\sqrt{2\pi}\sigma}exp^{(-\frac{(y-w^Tx)^2}{2{\sigma}^2})}\frac{1}{\sqrt{2\pi}\sigma_0}exp^{(-\frac{||w||^2}{2{\sigma}^2_0})} W^=wargmaxP(WY)=2π σ1exp(2σ2(ywTx)2)2π σ01exp(2σ02w2)
W ^ = log ⁡ ( 1 2 π σ 1 2 π σ 0 ) − ( ( y − w T x ) 2 2 σ 2 + ∣ ∣ w ∣ ∣ 2 2 σ 0 2 ) \hat W=\log({\frac{1}{\sqrt{2\pi}\sigma}}{\frac{1}{\sqrt{2\pi}\sigma_0}})-(\frac{(y-w^Tx)^2}{2{\sigma}^2}+\frac{||w||^2}{2{\sigma_0}^2}) W^=log(2π σ12π σ01)(2σ2(ywTx)2+2σ02w2)
注:由于 log ⁡ ( 1 2 π σ 1 2 π σ 0 ) 为 常 量 , 所 以 在 求 最 大 值 W 时 可 以 忽 略 \log({\frac{1}{\sqrt{2\pi}\sigma}}{\frac{1}{\sqrt{2\pi}\sigma_0}})为常量,所以在求最大值W时可以忽略 log(2π σ12π σ01)W
W ^ = w a r g m a x P ( W ∣ Y ) = w a r g m i n ( ( y − w T x ) 2 2 σ 2 + ∣ ∣ w ∣ ∣ 2 2 σ 0 2 ) \hat W= \mathop{}_{w}^{argmax}P(W|Y)=\mathop{}_{w}^{argmin}(\frac{(y-w^Tx)^2}{2{\sigma}^2}+\frac{||w||^2}{2{\sigma_0}^2}) W^=wargmaxP(WY)=wargmin(2σ2(ywTx)2+2σ02w2)
整 理 上 式 可 得 : 同 时 乘 以 2 σ 2 : 整理上式可得:同时乘以2{\sigma}^2: 2σ2
W ^ = w a r g m i n ( ( y − w T x ) 2 + σ 2 σ 0 2 w 2 ) \hat W=\mathop{}_{w}^{argmin}((y-w^Tx)^2+\frac{{\sigma}2}{{\sigma_0}^2}w^2) W^=wargmin((ywTx)2+σ02σ2w2)
注 : 我 们 令 λ = σ 2 σ 0 2 ; 那 么 上 式 可 以 变 成 如 下 : 注:我们令\lambda=\frac{{\sigma}2}{{\sigma_0}^2};那么上式可以变成如下: λ=σ02σ2
结 论 : W ^ = w a r g m i n ( ( y − w T x ) 2 + λ w 2 ) 重 点 ! ! ! ! ! ! 结论:\hat W=\mathop{}_{w}^{argmin}((y-w^Tx)^2+\lambda w^2) 重点!!!!!! W^=wargmin((ywTx)2+λw2)!!!!!
你看这个表达式是不是跟正则化的岭回归表达式一模一样,真神奇呀!

4. 结论:

4.1 最小二乘估计LSE

最小二乘估计 ⇔ \Leftrightarrow 极大似然估计(噪声为高斯分布),最小二乘估计隐藏了条件为,噪声为高斯分布

4.2正则化的最小二乘估计Regularized LSE即:岭回归

岭回归相当于最大后验估计(MAP),其中噪声 ϵ \epsilon ϵ为高斯分布(Guassian Distribution),并且先验W也服从高斯分布(Guassian Distribution)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值