PRML这序章写的太好了,用代码实现一下切身体会一下知识点.
- 假设有N个观察样例x,我们的目标函数是 (2 )加上一个高斯分布的噪声.这与我们实际工作中遇到的数据集其实也很相似:数据有一定的规律性,但每个数据点也都存在一定的噪声。噪声的产生可能是由于数据的随机性造成的,但更多的情况下是因为有我们未观察到的规律。
- 我们的目标是利用多项式去探索隐含在 (2 )下的方程式。更蛋疼的是我们观察到的数据都是有噪声的,但这章节我们还是先用多项式去拟合.多项式的方程范式如下:
- 这个下标没啥好多解释,就是个m项的多项式回归,需要注意的事,虽然多项式f(x,w)是关于x的非线性方程,但多项式回归可以理解为是W的线性方程。
- 在这个例子中我们使用均方误差来作为损失函数,注意这个1/2是为了后续的计算方便才这么操作的。一个均方误差为0的损失函数代表我们拟合的返程可以穿过所有的数据点
- 我们可以优化这个方程的方式就是:找到一组能够使得E(W)最小化的系数w。因为我们的损失函数是关于w的二次方程(Quadratic Function),所以损失关于w的导数是线性的,所以我们的损失函数一定有一个最优解(W*).
- 接下来我们要解决的问题就是找到一个超参数M,也就是多项式的项数,我们随机生成一些sinpx的数据点,并使用sklearn来拟合四个不同项次的方程来看看。<