从频率派和贝叶斯派的角度看线性回归

最新推荐文章于 2021-08-30 19:35:11 发布

wei22134

最新推荐文章于 2021-08-30 19:35:11 发布

阅读量254

点赞数

分类专栏：机器学习笔记文章标签：机器学习概率论正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42582355/article/details/115835386

版权

机器学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

频率派和贝叶斯派

硬币模型
- 频率派和MLE(极大似然估计)
- 贝叶斯派和MAP(最大后验估计)
线性回归概率视角
总结

硬币模型

对于一个问题，从概率派和贝叶斯派看起来是完全不一样的，其最主要的区别就是对于一个问题中模型参数的认识。

假设抛一枚硬币，设硬币朝上的概率为 $\theta$
频率派认为通过重复试验的统计结果可以估计 $\theta$ ,估计方法为极大似然估计(MLE) 在这里插入图片描述
贝叶斯派认为 $\theta$ 服从某个分布，这个分布即为先验知识
根据贝叶斯公式：

而 $\theta$ 与服从的某个分布与样本 $X$ 无关，因此 $P (X)$ 可拿掉,

频率派和MLE(极大似然估计)

假设一个人从来没见过硬币，对于硬币的形状密度分布等一无所知，只知道概率分布是0-1分布，也就是说，不是正面就是反面。那么对于 $\theta$ 也就只能根据实验的事实结果来猜测，也就是最大似然估计(MLE)。
总共抛了10次硬币， 7 次为正面，此次的投掷实验 $x$ 的似然函数为：

$L(x;\theta)=p(x\mid \theta)=\binom{10}{7}\theta^{7}(1-\theta)^{3}$
求解似然函数极值，即可得：
$\theta_{MLE}=0.7$
在这里插入图片描述
也就是说，下一次抛硬币出现正面的概率，可以认为是0.7

贝叶斯派和MAP(最大后验估计)

对于贝叶斯派来说，我们并不会对硬币形状一无所知，我们相信造币局造出来的硬币是质地相当均匀的，一般称之为先验信息。结合此先验信息和抛掷硬币实验结果，再次估算 $\theta$

还是总共抛了10次硬币，7 次为正面，但是由于我们相信硬币的制造工艺，把 $\theta$ 控制在某正态分布范围内，如 $\theta \sim N(0.5, 0.1^2)$ 。
此次的投掷实验 $x$ 的后验概率为：

$p(\theta;x)=p(x\mid \theta)=\binom{10}{7}\theta^{7}(1-\theta)^{3}\frac{1}{0.1\sqrt{2\pi }}e^{-\frac{1}{2}(\frac{\theta - 0.5}{0.1})^2}$

同样求极值 $P$ , 可以求得 $\theta \approx 0.558$
在这里插入图片描述

线性回归概率视角

线性回归的模型为 $Y=W^TX$ , 由一些点拟合出一条直线。
更通用的模型 $Y = F (W, X)$
下面分别使用MLE和MAP求解参数 $W$

最大似然估计(MLE)

使用MLE,
频率派认为参数 $W$ 为确定值，
因此考虑噪声 $\varepsilon$ ， $Y=W^TX+\varepsilon$ ，
并假设噪声 $\varepsilon$ 服从高斯分布，即 $\varepsilon \sim N(0, \sigma^2)$ 。

由此可得到 $Y$ 的期望和方差，
$E[Y]=E(W^TX+\varepsilon)=E(W^TX)+E(\varepsilon)$
$Var[Y]=Var(W^TX+\varepsilon)=Var(W^TX)+Var(\varepsilon)$

由于 $W$ 为固定参数，给定 $X$ ， $W^TX$ 也为常数，

因此 $\sim N(W^TX, \sigma^2)$

似然函数表示为：
$\begin{aligned} l(w) & = P(Y|X, W) \\ &=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma }e^{({-\frac{1}{2}(\frac{y_i-w^Tx_i}{\sigma })^2})} \end{aligned}$

$n$ 为样本数量

两边取对数得
在这里插入图片描述
求解最优值

为了降低过拟合的风险，表达式添加一项 $L 1 / L 2$ 损失

L1损失(LASSO回归)

$J(w)=L(w)+\lambda \left | w \right |$

L2损失(岭回归)

$J(w)=L(w)+\lambda \left \| w \right \|^2$

最大验估计（MAP）

与MLE沿用同一个模型。

由贝叶斯公式可得:
在这里插入图片描述
且似然为

相较与频率派，

贝叶斯对参数 $w$ 有一个先验估计，
先验估计：假设 $w$ 服从高斯分布 $\sim N(0, \sigma_w^2)$

得

$\begin{aligned} p(w)=\frac{1}{(\sqrt{2\pi})\sigma_w}exp{(-\frac{1}{2}(\frac{ \left \| w\right \|^2}{\sigma_w^2} ))} \end{aligned}$

取对求解参数
在这里插入图片描述

令：
$\lambda = \frac{\sigma}{\sigma_w^2}$
则损失函数为
在这里插入图片描述
与L2正则化的最小二乘估计相同。

总结

最小二乘估计等价于极大似然估计MLE，且噪声服从高斯分布；
正则化最小二乘估计等价于极大后验概率估计MAP，且噪声服从高斯分布。

若MAP先验采用拉普拉斯分布，则推导出的与MLE采用L1正则化项的结果保持一致。

而中心极限定理告诉我们，当样本量足够大时，样本均值的分布慢慢变成正态分布，此时均值为0，也就是为什么要假设噪声服从均值为0的高斯分布。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从频率派和贝叶斯派的角度看线性回归

频率派和贝叶斯派硬币模型频率派和MLE(极大似然估计)贝叶斯派和MAP(最大后验估计)线性回归参数估计频率派贝叶斯派硬币模型对于一个问题，从概率派和贝叶斯派看起来是完全不一样的，其最主要的区别就是对于一个问题中模型参数的认识。假设抛一枚硬币，设硬币朝上的概率为θ\thetaθ频率派认为通过重复试验的统计结果可以估计θ\thetaθ,估计方法为极大似然估计(MLE)贝叶斯派认为θ\thetaθ服从某个分布，这个分布即为先验知识根据贝叶斯公式：而θ\thetaθ与服从的某个分布与样本XXX无关，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。