简介
p ( t ∣ X , w , β ) = ∏ n = 1 N N ( t n ∣ w T ϕ ( x n ) , β − 1 ) p(\mathbf{t} | \boldsymbol{X}, \boldsymbol{w}, \beta)=\prod_{n=1}^{N} \mathcal{N}\left(t_{n} | \boldsymbol{w}^{T} \boldsymbol{\phi}\left(\boldsymbol{x}_{n}\right), \beta^{-1}\right) p(t∣X,w,β)=n=1∏NN(tn∣wTϕ(xn),β−1)
在用最大似然方法设置线性回归模型的参数时,基函数的数量控制的模型的模型的复杂度需要根据数据集的规模进行调整.为对数似然函数增加一个正则化项意味着模型的复杂度可以通过正则化系数的值进行控制,虽然基函数的数量和形式的选择仍然对于确定模型的整体行为十分重要.
这就产生了对于特定的应用确定合适的模型复杂度的问题.这个问题不能简单地通过最大化似然函数来确定,因为这总会产生过于复杂的模型和过拟合现象.独立的额外数据能够用来确定模型的复杂度,但需要较大的计算量,并且浪费了有价值的数据.因此我们转而考虑线性回归的贝叶斯方法,这会避免最大似然的过拟合问题,也会引出使用训练数据本身确定模型复杂度的自动化方法.为简单起见,只考虑单一变量t的情形.
参数分布
关于线性拟合的贝叶斯方法的讨论,首先引入模型参数 w \boldsymbol{w} w的先验概率分布.现在,我们把噪声精度参数 β \beta β当作已知常数.首先,我们注意到,似然函数 p ( t ∣ w ) p(\mathbf{t} | \boldsymbol{w}) p(t∣w)是 w \boldsymbol{w} w的二次函数的指数形式.于是对应的共轭先验是高斯分布,形式为 p ( w ) = N ( w ∣ m 0 , S 0 ) p(\boldsymbol{w})=\mathcal{N}\left(\boldsymbol{w} | \boldsymbol{m}_{0}, \boldsymbol{S}_{0}\right) p(w)=N(w∣m0