线性回归：从贝叶斯角度分析

最新推荐文章于 2024-02-24 19:33:05 发布

coderpai

最新推荐文章于 2024-02-24 19:33:05 发布

阅读量1.7k

点赞数

分类专栏：量化交易深度学习文章标签：量化交易

本文链接：https://blog.csdn.net/CoderPai/article/details/88343801

版权

量化交易同时被 2 个专栏收录

102 篇文章 59 订阅

订阅专栏

深度学习

21 篇文章 2 订阅

订阅专栏

作者：chen_h
微信号 & QQ：862251340
微信公众号：coderpai

我们都知道学习机器学习时学到的第一个模型就是线性回归。这是一个非常简单，直观和激发我们深入到机器学习的模型。

线性回归可以在几个观点中直观的解释，例如：几何和频率统计。从频率统计的角度来看，通常应该会谈论到贝叶斯。因此从这篇文章中，我们将从贝叶斯的角度来简单分析一下线性规划。

线性回归：回顾

回想一下，在线性回归中，我们希望将输入映射为实数，即 $f:R^{N} \rightarrow R$ 。例如，一个学生学习了多少小时功课，学习了什么学科和这个学生的智商 IQ 是多少，然后让你去预测他的成绩是多少？

线性回归也是分为好几种的，这取决于它们的成本函数和正则化器。在这篇文章中，我们将来重点关注线性回归 $l_{2}$ 损失函数和 $l_{2}$ 正则化。在统计学中，这种正则化称为 Ridge 回归。

正式的，这种形式我们可以用数学表示为：

$\frac{1}{2} ||\hat y - y||_{2}^{2} + \frac{\lambda}{2} || W ||_{2}^{2}$

其中 $\hat y$ 是真实值， $y$ 是我们的预测值，可以用下面的数学表达出来：

$y=W^{T}x$

这是一个特征向量和权重矩阵的线性组合。上面额外的 $\frac{1}{2}$ 只是为了在后续的计算中，更加方便而已。然后，我们的目标是减小这个损失函数的值。也就是说，我们想要找到权重矩阵 w 使得损失函数最小。

当然，我们可以先忽略正则化项，那么我们的损失函数就变成了：

$\frac{1}{2} ||\hat y - y||_{2}^{2}$

最小化此目标是线性最小二乘问题的定义。

线性回归的频率观点

我们可以将上述模型的回归目标谢伟预测值加上一些误差：

$\hat y = y + \epsilon = W^{T}x + \epsilon $

或者，等价于，我们可以得到误差项的表现形式：

$\epsilon = \hat y - y$

现在，假设我们将回归目标建模为高斯随机变量，即 $\sim N(\mu, \sigma^{2})$ 和 $\mu = y = W^{T}x$ ，所以我们的预测模型可以正式成为：

$P(\hat y | x,W) = N(\hat y | W^{T}x, \sigma^{2})$

然后，我们的目标就是去找到最佳的 W，我们可以使用最大似然函数（MLE）。由于上述模型是似然的，所以我们可以用如下数学公式描述我们的数据：

$W_{MLE} = \mathop{argmax}\limits_{W} N(\hat y | W^{T}x, \sigma^{2})$

高斯分布的概率密度函数为：

$P(\hat y | x, W) = \frac{1}{\sqrt{2\sigma^{2}\pi}}exp(- \frac{(\hat y - W^{2}x)^{2}}{2\sigma^{2}})$

当我们进行最大化时，我们可以忽略似然函数的归一化常数，因此：

$W_{MLE} = \mathop{argmax}\limits_{W}exp(- \frac{(\hat y - W^{2}x)^{2}}{2\sigma^{2}})$

正如往常一样，优化对数可能会更加容易一点：

$W_{MLE} = \mathop{argmax}\limits_{W} log(exp(- \frac{(\hat y - W^{T}x)^{2}}{2\sigma^{2}})) \; = \mathop{argmax}\limits_{W} - \frac{(\hat y - W^{T}x)^{2}}{2\sigma^{2}} = \mathop{argmin}\limits_{W} \frac{(\hat y - W^{T}x)^{2}}{2\sigma^{2}}$

为了简单起见，我们可以设置 $\sigma ^{2} = 1$ ，那么：

$W_{MLE} = \mathop{argmin}\limits_{W} \frac{(\hat y - W^{T}x)^{2}}{2} = \mathop{argmin}\limits_{W} \frac{\sum_{i}(\hat y -W_{i}x_{i})^{2}}{2} = \mathop{argmin}\limits_{W} \frac{||\hat y - W^{T}x||_{2}^{2}}{2}$

所以我们可以看到，对于高斯似然做 MLE 等于线性回归！！！

线性回归的贝叶斯角度

但是，如果我们想要去处理贝叶斯，我们需要先引入一个先验，并与后者合并一起。那么，我们正在进行 MAP 估算！后验是先验的似然：

$P(W|\hat y, x) = P(\hat y | x, W)P(W|\mu_{0}, \sigma_{0}^{2})$

既然我们已经知道了似然，现在我们可以问，什么是先验呢？如果我们将其设置为均匀分布，那么我们将在此处回到 MLE 估计。因此，对于非平凡的例子，我们先使用高斯先验作为权重：

$P(W|\mu_{0}, \sigma_{0}^{2}) = N(0, \sigma_{0}^{2})$

扩展概率密度函数，我们再次忽略正则化常数，但是要记住这一点，即 $\mu_{0} = 0$ 。那么：

$P(W|\mu_{0}, \sigma_{0}^{2}) = \frac{1}{\sqrt{2\mu_{0}^{2}\pi}} exp(-\frac{(W-\mu_{0})^{2}}{2\sigma_{0}^{2}}) \propto exp(- \frac{W^{2}}{2\sigma_{0}^{2}})$

让我们得出后验：

$P(W|\hat y, x) = P(\hat y | x, W)P(W|\mu_{0}, \sigma_{0}^{2}) \propto exp(- \frac{(\hat y - W^{T}x)^{2}}{2\sigma^{2}}) exp(- \frac{W^{2}}{2\sigma_{0}^{2}})$

我们对其求对数：

$P(W|\hat y, x) \propto - \frac{1}{2\sigma^{2}}(\hat y - W^{T}x)^{2}- \frac{1}{2\sigma_{0}^{2}}W^{2} = \frac{1}{2\sigma^{2}} ||\hat y -W^{T}x||_{2}^{2} - \frac{1}{2\sigma^{2}} ||W||_{2}^{2}$

跟前面一样，我们可以假设 $\sigma^{2} = 1$ 和 $\lambda = \frac{1}{\sigma_{0}^{2}}$ ，那么我们的对数后验就变成了：

$P(W|\hat y, x) \propto -\frac{1}{2} ||\hat y - W^{T}x ||_{2}^{2} - \frac{\lambda}{2} ||W||_{2}^{2}$

也就是说，高斯似然和高斯先验的对数后验与 Ridge 回归的目标函数相同。因此，高斯先验等于 $l_{2}$ 正则。

完全贝叶斯方法

当然，上面不是完整的贝叶斯过程，因为我们正在以 MAP 的形式进行点估计。这只是一个捷径，因为我们不需要计算完整的后验分布。对于完全贝叶斯方法，我们需要分析完整的后验分布。在测试时间内，我们使用后验来对新数据进行加权，即我们将后验预测分布边缘化：

$\hat y, x) = \int_{W}P({y}' | {x}', W)P(W|\hat y, x) = E_{W}[P({y}' | {x}', W)]$

也就是说，考虑到我们新数据点的似然 $(x^{'}, y^{'})$ ，我们计算似然性，并且用后验来衡量。

直观的说，给出了所有后验可能的值 W，我们逐个尝试这些值来预测新数据。然后结果与这些值的概率的平均，因此正是我们需要的期望。

当然，这就是我们使用 MAP 形式的快捷方式的原因。为了说明，如果每一个组件 W 是二元的，等价于他有两个可能值。那么如果有 K 个组件 W，那么我们就可能有 $2^{K}$ 个候选值给 W 。这是一种指数爆炸的。在真实的世界中，W 的每个组件是一个真的值，这就产生了枚举所有可能值的问题。

当然我们可以使用像变分贝叶斯或者 MCMC 这样的近似方法，但他们仍然比 MAP 更加昂贵。由于 MAP 和 MLE可以保证找到其中一种模式（局部最大值），因此足够好。

结论

在这篇文章中，我们看到了线性回归有几个不同的观点。首先，我们研究了普通机器学习 PoV 中的线性回归的定义，然后是频率统计，最后是贝叶斯统计。

我们注意到使用 MAP 估计的线性回归的贝叶斯版本不是完全贝叶斯方法，因为 MAP 只是一种捷径。然后我们注意到为什么完全贝叶斯方法很难并且通常难以处理，即使在这个简单的回归模型上也是如此。

coderpai

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
线性回归：从贝叶斯角度分析

作者：chen_h微信号 &amp; QQ：862251340微信公众号：coderpai我们都知道学习机器学习时学到的第一个模型就是线性回归。这是一个非常简单，直观和激发我们深入到机器学习的模型。线性回归可以在几个观点中直观的解释，例如：几何和频率统计。从频率统计的角度来看，通常应该会谈论到贝叶斯。因此从这篇文章中，我们将从贝叶斯的角度来简单分析一下线性规划。线性回归：回顾回想一下...
复制链接

扫一扫