本文概览:
1,作者:M.Ebden;
2,思想来源:对于给定训练数据预测新数据为问题,如果我们假设训练数据是线性的,那么可以用最小二乘法计算训练模型,然而,大多数情况下训练数据是非线性的,此时我们可以假设训练模型是二次的、立方体的,亦或是其他非线性模型,此时我们可以利用模型选择的原理在不同的可能性间做出选择。但是针对非线性问题,高斯处理回归是更好地选择,它可以挖掘数据中更深层的知识,并且其是一种有监督的学习方式,可以微妙的利用训练数据;
高斯处理回归:
1,高斯处理模型是一个参数少的模型,但并非是完全没有参数的自由模型;
2,如果不能对回归函数f(x)做一些基本的假设,那么可以考虑使用别的回归技术;
3,关键假设:我们的数据可以被表达为从多变量的高斯分布中进行采样;
4,GP将多变量高斯分布扩展到无限维空间;
5,一般高斯协方差函数:
6,带噪声的高斯协方差函数:
7,协方差矩阵:
8,对于训练数据和待预测数据:
9,通过训练数据预测未知数据的分布:
10,我们对未知数据最好的估计为其均值:
举例
1,已知数据与未知数据分布图:
2,计算已知数据的K矩阵:
3,计算已知数据与位置数据的相关矩阵:
4,计算未知数据的估计均值和方差:
实践中的高斯处理回归:
1,选择参数:大部分回归效果受参数影响较大,实际中建议使用贝叶斯理论通过最大化
进行参数选择,该式可以通过简单的变量优化算法进行优化求解;
更复杂的高斯回归:
1,
2,定义更复杂的协方差函数:第一项考虑独立变量小的变迁,是一种短期效应;第二项考虑长期的趋势,是一种长期效应,
3,上式与此式不同,上式不包含周期效应,但是下式包含周期效应:
4,复杂的回归问题中,方差函数的选取尤为重要!就像。。。前述选择模型一样;
5,实际回归问题中,没有哪个回归问题是不需要一些先验的模型假设的;
本文部分算法优化代码:
1,github.com/mebden/GPtutorial
2,www.gaussianprocess.org/gpml