线性回归模型可以从第一章的决策论一节中的loss function for regression讲起,当我们已经有关于回归目标
t
的条件分布
在一般的回归任务中,我们的目标是使用
(x,t)
的二元组样本数据集
D
,来估计出
统计角度的线性回归模型
线性回归模型假设数据是这么产生的:
t=wTx+ϵ
. 其中
ϵ
是一个服从
(0,σ)
的随机噪声,那么观测到目标
t
服从的分布为
由此可见使用最大似然估计线性回归模型的参数 w 就是在最小化均方误差。
贝叶斯角度的线性回归模型
PRML这本书的主视角是贝叶斯角度,贝叶斯角度的线性回归和统计角度的线性回归有何不同呢?这两个角度的线性回归都是假定数据由
但是贝叶斯角度中,
w
也是一个随机变量,它也服从一个概率分布。我们通过数据集并不能确定出
p(D|w) 是上面似然函数, p(w) 是 w 的先验分布(第二章讲了如何构造共轭先验)。分母是
上面介绍的最大后验方法,仍然是在点估计参数
w
,本质上与最大似然加约束项的方法等价,所以在贝叶斯机器学习中,又被称为poor man’s bayesian。
更加完备的贝叶斯方法是fully bayesian和empirical bayesian. 这两种方法的思想是,我们在有了关于
然而这样对参数、超参数共同积分的方法往往是没有解析结果的,所以我们可以使用稍微弱化一些的方法:empirical bayesian,在书中称为evidence approximation, 又称为type 2 marignal likelihood. 这种方法先对超参数进行点估计,然后将估计出的超参数直接带入fully bayesian的公式中。如果我们假定 p(α,σ|D) 是一个类似脉冲的概率分布,即所有的概率集中在一个点 (α̂ ,σ̂ ) 上,那么:
即我们将估计好的 (α̂ ,σ̂ ) 带入到公式中,直接得到预测模型。估计超参数的方法同样是最大化超参数的后验概率:
不过,如果我们假设超参数的先验概率分布 p(α,σ) 非常平坦,那么最大后验估计等同于最大化 p(D|α,σ) , 这个概率和统计方法中的最大化似然函数 P(D|w) 是不是很像?区别在于,最大似然是数据集在参数 w 下观测到条件概率,而
对 α,σ 求导,求出极值点,即为我们对超参数的点估计。