回归分析研究的是客观事物变量间的统计关系,通过在对客观事物大量实验和观测的基础上,找到隐藏在不确定现象中的规律性的统计方法。这一方法从高斯提出的最小二乘法算起已经有200年的历史,一直在被各种学科广泛的应用中。
机器学习的回归思想也是通过丢给机器学习和观察数据来找到杂乱数据间隐藏的规律,通过建模和算法使得规律得到的结果不仅与真实的结果越逼近越好,而且在新的数据上也有很好的预测准确性,也就是好的泛化能力。首先从误差理论说起:
一、机器学习中的误差理论
模型和学习算法的泛化性能好坏的评价标准是泛化误差(泛化错误率),首先对范化误差进行计算和拆解:
几个参量描述如下:
测试样本:x
x在数据集上的标记:yD
x的真实标记:y
训练集D上的模型f在x上的预测输出:f(x;D)
学习算法的期望预测:ED[f(x;D)]
样本数相同的不同训练集产生的方差:var(x)= ED[(f(x;D)-ED[f(x;D)])^2],表征数据扰动造成的影响
噪声:epsilon=ED[(yD-Y)^2],表征学习本身的难度
期望输出和真实标记的差别,即方差:Bias^2(x)=(ED[f(x;D)]-y)^2,