4-线性回归-岭回归之概率思考

最新推荐文章于 2023-08-20 10:14:23 发布

取个名字真难呐

最新推荐文章于 2023-08-20 10:14:23 发布

阅读量684

点赞数

分类专栏： pytorch

本文链接：https://blog.csdn.net/scar2016/article/details/115470831

版权

pytorch 专栏收录该内容

148 篇文章 25 订阅

订阅专栏

文章目录

1. MLE定义[极大似然估计]
2. MAP定义[最大后验估计]
- 2.1贝叶斯公式&最大后验估计来源
- 2.2 最大后验估计MAP和极大似然估计MLE区别
3.岭回归下的贝叶斯角度思考
- 3.1数据的定义
- 3.2 最大后验估计MAP表示岭回归
4. 结论：
- 4.1 最小二乘估计LSE
- 4.2正则化的最小二乘估计Regularized LSE即：岭回归

1. MLE定义[极大似然估计]

Maximum likelihood estimation 简称 MLE，常常叫为极大似然估计，通俗的讲就是，利用已知的样本结果信息，反推最具可能[最大概率]导致这些样本结果出现的模型参数值；已知样本数据，推模型和参数，那就属于统计的范畴了。

1.1 极大似然估计的意义

似然函数的直观意义：用来刻画参数 $\theta与数据的匹配程度$

1.2 离散型概率模型

$L(\theta)=\prod_{i=1}^{N}P_{\theta}(X_i=x_i);注：X_i 表示统计量，x_i表示观测值$

1.3 连续型概率模型

$L(\theta)=\prod_{i=1}^{N}f(x_i,\theta);$

1.4 举例：

X	1	2
P	$\theta$	$1-\theta$

说明：我们假设数据X有两个值，X=1或 X=2 ,假设 X=1 发生的概率为 $\theta$ ,X=2发生的概率为 $1-\theta$ ；假设有一个样本总和中X=1发生了 $N_1次，X=2发生了N_2次，总共发生了N=N_1+N_2次$ ，那么我们从直观的感觉可以得出，X=1发生的概率就是 $\theta = N_1/N;[这个大家一眼就能看出来]$
那么科学家们就想，怎么样才能通过一种方法来表达这种直觉，让统计更加像科学，而不是一种感觉，那么就产生了极大似然估计MLE,这种理论来解释这种感觉：
那么我们用似然函数 $L(\theta)来表达这个事件，即：X=1发生 N_1次，X=2发生N_2次$
$L(\theta)={\theta}^{N_1}{(1-\theta)^{N_2}} 这个很简单的表达吧$
我们这个事件在现实样本中已经发生了，那么它的概率应该为1，毕竟我们是得到这个样本总和的[X=1发生 N_1次，X=2发生N_2次]这是一个已知条件，那么，既然 $L(\theta)$ 没办法在计算中达到1，那么我们就算算怎样使得 $L(\theta)$ 取得最大吧。这样就能够让这个值更加逼近现实的样本，使得它更加符合样本这个事实

1.4.1求最大值取 $L(\theta)$ 的对数

$\log L(\theta) = N_1{\log}{\theta}+N_2{\log}{(1-\theta)}$

1.4.2 $函数L(\theta)对\theta求偏导,并令其为零：$

$\frac{\partial {L(\theta)} }{\partial \theta}=N_1/{\theta}+N_2/(\theta-1)=0$
$解出来的\hat{\theta}=N_1/N$
那么我们就可以看出来，用极大似然估计MLE求出来的 $\hat{\theta}$ 就跟用直觉看出来的 $\theta$ 一模一样了，是不是很神奇！！！
总结：用极大似然估计估计法求出来的参数可以最大形式的去匹配已经发生了的数据集合，两者具有更好的相似性。

2. MAP定义[最大后验估计]

2.1贝叶斯公式&最大后验估计来源

$P(\theta|X_0)=\frac{P(X_0|\theta)P(\theta)}{P(X_0)}$
$P(\theta|X_0):后验估计，在一定样本条件下求\theta;$
$2.P(X_0|\theta):极大似然估计;$
$3.P(\theta):先验$
$最大后验概率估计则是想求\theta,使P(X_0 | \theta) P(\theta)最大。当X_0的值已经由于实验出来了，P(X_0)$ 是已知值，所以上式可以去掉分母， $X_0$ 已经明确，那么要求 $\theta$ 取什么值使得 $P(\theta|X_0)$ 取得最大值，所以叫最大后验估计

2.2 最大后验估计MAP和极大似然估计MLE区别

$2.2.1最大似然估计MLE是求参数\theta, 使似然函数p(X_0|\theta)最大。$
MLE认为：θ是非随机变量或者分布未知的随机变量，认为P(θ)均匀分布的，即该概率是一个固定值，P(θ)=C，所以其目标为：
$\hat{\theta}_{MLE}=\mathop{}_{\theta}^{argmax}P(X|\theta)C=\mathop{}_{\theta}^{argmax}P(X|\theta)$
$2.2.2最大后验概率估计MAP则是想求\theta使得p(X_0|\theta)p(\theta)最大$
MAP认为:θ是一个随机变量，其先验概率密度函数是已知的，为P(θ)，所以其目标为：
$\hat{\theta}_{MAP}=\mathop{}_{\theta}^{argmax}P(X|\theta)P(\theta)$
MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布，或者说。MLE中认为模型参数本身的概率的是均匀的，即该概率为一个固定值。

3.岭回归下的贝叶斯角度思考

3.1数据的定义

我们知道岭回归矩阵表达如下：
$J(W)=\sum_{i=1}^{N}{||W^Tx_i-y_i||^2+\lambda W^TW}$
我们假设数据中包含一个噪声，它服从高斯分布 $\epsilon$ ~ N(0, ${\sigma}^2$ ) ,它的期望为零是为了使得后续方便运算，由于 $Y=W^TX+\epsilon;所以Y服从如下分布P(Y|X,W) \sim N(W^TX,{\sigma}^2)：可得如下公式(似然)：$
$P(Y|W)=\frac{1}{\sqrt{2\pi}\sigma}exp^{(-\frac{(y-w^Tx)^2}{2{\sigma}^2})}$
我们假设先验W满足如下高斯分布： $W\sim N(0,{\sigma}^2_0)$ ,可得如下公式(先验):
$P(W)=\frac{1}{\sqrt{2\pi}\sigma_0}exp^{(-\frac{||w||^2}{2{\sigma}^2_0})}$

3.2 最大后验估计MAP表示岭回归

我们的目的是求 $W 使得 P (W ∣ Y) 取得最大值，这时我们就想到了贝叶斯公式$
$P(W|Y)=\frac{P(Y|W)P(W)}{P(Y)}$
$注:目的是：\hat W = \mathop{}_{w}^{argmax}P(W|Y)$
$其中样本 Y 已经在实验中出来了，所以 P (Y) 已知且确定$
$\hat W= \mathop{}_{w}^{argmax}P(Y|W)P(W),所以，为了简便运算，我们对上式进行取对数运算$
$\hat W= \mathop{}_{w}^{argmax}P(W|Y)=\frac{1}{\sqrt{2\pi}\sigma}exp^{(-\frac{(y-w^Tx)^2}{2{\sigma}^2})}\frac{1}{\sqrt{2\pi}\sigma_0}exp^{(-\frac{||w||^2}{2{\sigma}^2_0})}$
$\hat W=\log({\frac{1}{\sqrt{2\pi}\sigma}}{\frac{1}{\sqrt{2\pi}\sigma_0}})-(\frac{(y-w^Tx)^2}{2{\sigma}^2}+\frac{||w||^2}{2{\sigma_0}^2})$
注：由于 $\log({\frac{1}{\sqrt{2\pi}\sigma}}{\frac{1}{\sqrt{2\pi}\sigma_0}})为常量，所以在求最大值W时可以忽略$
$\hat W= \mathop{}_{w}^{argmax}P(W|Y)=\mathop{}_{w}^{argmin}(\frac{(y-w^Tx)^2}{2{\sigma}^2}+\frac{||w||^2}{2{\sigma_0}^2})$
$整理上式可得：同时乘以2{\sigma}^2：$
$\hat W=\mathop{}_{w}^{argmin}((y-w^Tx)^2+\frac{{\sigma}2}{{\sigma_0}^2}w^2)$
$注：我们令\lambda=\frac{{\sigma}2}{{\sigma_0}^2}；那么上式可以变成如下：$
$结论：\hat W=\mathop{}_{w}^{argmin}((y-w^Tx)^2+\lambda w^2) 重点！!!!!!$
你看这个表达式是不是跟正则化的岭回归表达式一模一样，真神奇呀！

4. 结论：

4.1 最小二乘估计LSE

最小二乘估计 $\Leftrightarrow$ 极大似然估计(噪声为高斯分布)，最小二乘估计隐藏了条件为，噪声为高斯分布

4.2正则化的最小二乘估计Regularized LSE即：岭回归

岭回归相当于最大后验估计(MAP)，其中噪声 $\epsilon$ 为高斯分布(Guassian Distribution)，并且先验W也服从高斯分布(Guassian Distribution)

取个名字真难呐

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
4-线性回归-岭回归之概率思考

文章目录1. MAP定义2. MLE定义3. 算法技术1. MAP定义阿斯顿发顺丰的阿斯蒂芬阿斯蒂芬阿道夫啊手动阀啊双方都阿萨德发啊打发发啊打发啊打发2. MLE定义阿斯顿发送到发手动阀啊手动阀啊手动阀啊手动阀啊放大发啊打发as打发手动阀微分as防水层的3. 算法技术发手动阀as打发按时分为非发动机上档次as的处境艾佛安抚 as打发啊发奥德赛发阿斯蒂芬啊双方都额发啊发手动阀...
复制链接

扫一扫