回归问题是典型的监督学习的一类算法,目标是通过有标签的一组数据训练出一个线性模型,对于输入能够产生一个预测值。回归问题的典型指标是均方根误差(RMSE),它测量的是系统预测误差的标准差,例如RMSE等于50000,意味着68%的系统封预测值位于实际值的5000之内,95%的预测值位于实际值的100000之内(一个特征通常符合高斯分布,即满足“68-95-99.7”规则:大约68%的值落在1内,95%的值落在2内,99.7%的值落在3内,这里的σ等于50000),RMSE的计算公式如下:
其中:
- m是RMSE数据集中实例的个数。
- 是数据集第i个实例的所有特征值(不包含标签)的向量,y是它的标签(这个实例的输出值)。
- h是系统的预测函数,也称为假设。当系统收到一个实例的特征向量,就会输出这个实例的一个预测值=h(X)
RMSE(X,h)是使用假设h在样本上测量的损失函数。