PRML Ch3: Linear Models For Regression 线性回归模型

最新推荐文章于 2024-06-03 17:38:43 发布

chenjunxuan

最新推荐文章于 2024-06-03 17:38:43 发布

阅读量491

点赞数

分类专栏： PRML读书笔记文章标签：机器学习线性回归 PRML

本文链接：https://blog.csdn.net/sinat_34781683/article/details/51523974

版权

PRML读书笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

线性回归模型可以从第一章的决策论一节中的loss function for regression讲起，当我们已经有关于回归目标 $t$ 的条件分布 $p(t|x)$ 时，如果选取L2 loss为loss function,那么通过变分的方法最小化期望误差，可以得出我们的回归函数应该为 $E_{t}[t|x]$ ，即概率分布 $P(t|x)$ 关于 $t$ 的期望。但是这个结论并不能直接应用，因为我们并不知道关于 $t$ 的条件分布 $p(t|x)$ 。
在一般的回归任务中，我们的目标是使用 $(x, t)$ 的二元组样本数据集 $D$ ，来估计出 $p(t|x)$ 。

统计角度的线性回归模型

线性回归模型假设数据是这么产生的： $t = w^{T}x +\epsilon$ . 其中 $\epsilon$ 是一个服从 $\mathcal{N}(0, \sigma)$ 的随机噪声，那么观测到目标 $t$ 服从的分布为 $p(t|x)\sim\mathcal{N}(w^{T}x, \sigma)$ . 使用最大似然方法求 $w$ 即最大化：

P (D | w) = \prod x  (w T x, σ),

$P(D|w) = \prod_{x}\mathcal{N}(w^{T}x, \sigma),$ 取对数再去掉常数项即：

- 1 σ \sum x (t x - w T x) 2,

$-\frac{1}{\sigma}\sum_{x}(t_{x} - w^{T}x)^{2},$
由此可见使用最大似然估计线性回归模型的参数

w $w$ 就是在最小化均方误差。

贝叶斯角度的线性回归模型

PRML这本书的主视角是贝叶斯角度，贝叶斯角度的线性回归和统计角度的线性回归有何不同呢？这两个角度的线性回归都是假定数据由 $t = w^{T}x +\epsilon$ 产生，但是统计角度的线性回归认为 $w$ 是固定的，当我们有了一份观测数据后，我们就可以用这些数据去估计出一个 $w$ 的值。实时上在大多数的实际任务中，我们也确实只需要一个 $w$ 的值，就可以得到 $P(t|x)$ 了。
但是贝叶斯角度中， $w$ 也是一个随机变量，它也服从一个概率分布。我们通过数据集并不能确定出 $w$ 的值，而只能确定一个 $w$ 分布情况。如果认为 $w$ 也是随机变量，那么根据贝叶斯公式，我们有关于 $w$ 的后验分布：

p (w | D) = p ( D | w ) p ( w ) \int p ( D | w ) p ( w ) d w .

$p(w|D) = \frac{p(D|w)p(w)}{\int p(D|w)p(w)dw}.$

p(D|w) $p(D|w)$ 是上面似然函数，

p(w) $p(w)$ 是

w $w$ 的先验分布(第二章讲了如何构造共轭先验)。分母是

P(D) $P(D)$ ,是关于

w $w$ 的常数。有了关于

w $w$ 的后验分布，我们同样可以对

w $w$ 做一个点估计，求出一个

w $w$ 的值。点估计的方法可以是求使得

p(w|D) $p(w|D)$ 最大的

w $w$ 的值，这种估计方法称为最大后验方法。当然，我们也可以用

p(w|D) $p(w|D)$ 的期望作为

w $w$ 的估计值。但是当我们使用高斯先验时，

P(w|D) $P(w|D)$ 服从高斯分布，这两个值恰好是相同的，即高斯分布的均值。

上面介绍的最大后验方法，仍然是在点估计参数 $w$ ,本质上与最大似然加约束项的方法等价，所以在贝叶斯机器学习中，又被称为poor man’s bayesian。
更加完备的贝叶斯方法是fully bayesian和empirical bayesian. 这两种方法的思想是，我们在有了关于 $w$ 的后验分布后，在做回归预测时，并不直接带入一个 $w$ 的值，而是使用 $w$ 的概率，fully bayesian用公式表达就是:

p (t | x, D) = \int \int \int p (t | x, w, σ) p (w | D, α, σ) p (α, σ | D) d w d α σ

$p(t|x, D) = \int \int \int p(t|x, w, \sigma)p(w|D, \alpha, \sigma) p(\alpha, \sigma|D) dwd\alpha\sigma$
然而这样对参数、超参数共同积分的方法往往是没有解析结果的，所以我们可以使用稍微弱化一些的方法：empirical bayesian，在书中称为evidence approximation，又称为type 2 marignal likelihood. 这种方法先对超参数进行点估计，然后将估计出的超参数直接带入fully bayesian的公式中。如果我们假定

p(α,σ|D) $p(\alpha, \sigma|D)$ 是一个类似脉冲的概率分布，即所有的概率集中在一个点

(α̂ ,σ̂ ) $(\hat\alpha, \hat\sigma)$ 上，那么:

p (t | x, D) = p (t | x, D, α ̂, σ ̂) = \int p (t | x, w, σ ̂) p (w | D, α ̂, σ ̂) d w,

$p(t|x,D) = p(t|x, D, \hat\alpha, \hat\sigma) = \int p(t|x, w, \hat\sigma)p(w|D, \hat\alpha, \hat\sigma) dw,$
即我们将估计好的

(α̂ ,σ̂ ) $(\hat\alpha, \hat\sigma)$ 带入到公式中，直接得到预测模型。估计超参数的方法同样是最大化超参数的后验概率：

p (α, σ | D) \propto p (D | α, σ) p (α, σ),

$p(\alpha, \sigma|D) \propto p(D|\alpha, \sigma) p(\alpha, \sigma),$
不过，如果我们假设超参数的先验概率分布

p(α,σ) $p(\alpha, \sigma)$ 非常平坦，那么最大后验估计等同于最大化

p(D|α,σ) $p(D|\alpha, \sigma)$ , 这个概率和统计方法中的最大化似然函数

P(D|w) $P(D|w)$ 是不是很像？区别在于，最大似然是数据集在参数

w $w$ 下观测到条件概率，而

p(D|α,σ) $p(D|\alpha, \sigma)$ 是数据集在超参数

(α,σ) $(\alpha, \sigma)$ 下观测到的条件概率。故这个概率被称为marginal likelihood. 写出这个概率的表达式：

p (D | α, σ) = \int p (D | w, σ) p (w | α) d w

$p(D|\alpha, \sigma) = \int p(D|w, \sigma) p(w|\alpha)dw$
对

α,σ $\alpha, \sigma$ 求导，求出极值点，即为我们对超参数的点估计。

chenjunxuan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PRML Ch3: Linear Models For Regression 线性回归模型

统计角度的线性回归模型统计角度的线性回归模型可以从第一章的决策轮一节中的loss function for regression讲起，当我们有关于回归目标tt的条件分布p(t|x)p(t|x)时，如果选取L2 loss为loss function,那么通过变分的方法最小化期望误差，可以得出我们的回归函数应该为Et[t|x]E_{t}[t|x]即概率分布P(t|x)P(t|x)关于$t￥
复制链接

扫一扫