PRML第一章读书小结
第一章用例子出发,较为简单的引入了概率论、模型、决策、损失、信息论的问题,作为机器学习从业者,读PRML除了巩固已有基础,还受到了很多新的启发,下面将我收到的启发总结如下。
1. 多项式曲线拟合问题
多项式拟合问题作为全书的第一个引例,通过此说明了很多关键的概念。
给定一个训练集,训练集由$x$的N次观测组成,记作$mathbf{x} equivleft(x{1}, cdots, x{N}right)^{T}$,对应了相应的观测值$t$,记作$mathbf{t} equivleft(t{1}, cdots, t{N}right)^{T}$。它们拥有了一个内在的规律,这个规律是我们想要学习的,但是同时独立的观察会被随机噪声所干扰。我们的目标是利用这个训练集预测输入变量的新值,我们需要隐式地发现内在的函数$sin(2pi x)$,由于有限的观察和噪声的,发现这一函数($sin(2pi x)$)很难。
概率论提供了一个框架,用精确的数学形式描述这种不确定性。决策论让我们能够根据合适的标准,利用这种概率的表示,进行最优的预测。
我们经常用多项式函数进行曲线拟合,即$y(x, boldsymbol{w})=w{0} w{1} x w{2} x^{2} ldots w{M} x^{M}=sum{j=0}^{M} w{j} x^{j}$,系数的值$w$通过拟合训练数据的方式确定,M作为多项式的阶数是模型对比(model comparison)、模型选择(model selection)的重要问题的一个特例。拟合时,我们通过最小化误差函数(error function)的方法实现,一个简单的最小化误差函数如下:$$E(boldsymbol{w})=frac{1}{2} sum{n=1}^{N}left{yleft(x{n}, boldsymbol{w}right)-t_{n}right}^{2}$$
我们发现过小的M拟合效果非常差,而高阶的M完美拟合了数据,但是曲线剧烈震荡,就表达函数$sin(2pi x)$来说表现很差,这便是过拟合。
我们的目标是通过对新数据的预测实现良好的泛化性,于是我们考虑一个额外的训练集,生成方式和之前的训练集完全相同,但是包含的噪声不同,对于每个M的选择,我们可以利用误差函数,或者均方根误差(RMS)衡量:$$E_{R M S}=sqrt{2 Eleft(boldsymbol{w}^{*}right) / N}$$N保证了以相同的基础对比不同大小的数据集,平方根保