文章目录
回归预测性能评价思路
通常将在训练数据集上的预测输出值与训练数据集中对应的真实值之间的差异称为“训练误差”,而将使用训练好的模型在测试数据集上进行测试而得到的预测值与真实值之间的差异称为“泛化误差”,使用预测模型进行大数据预测的最大目的在于要使“泛化误差”处于一个最小值的状态,而实际过程中只能通过对模型的训练过程使“训练误差”尽可能小,因此实际的应用中,想要在测试数据集上进行测试时预测值与真实值的“泛化误差”为0几乎是不可能的。
由于误差难以避免,在对模型的好坏进行评价时,需要采用一系列指标对其性能进行评价,对预测模型进行性能评价时,主要是对训练好的模型在新数据集上的预测值的好坏进行评价,通常会采用一些数学统计上的公式计算模型的预测值与实际的真实值之间的关系。常见的性能评价指标有均方误差、均方根误差、平均绝对误差、平均绝对百分比误差、对称平均绝对百分比误差以及拟合度,下面将对它们分别展开介绍。
1、均方误差(Mean Square Error,MSE)
该指标的取值范围为0到正无穷大,当模型的预测值与真实值完全相同时,该值取值为0,否则预测值与真实值之间的差值越大,该值越大。其计算公式如下:
其中n为样本的数量,y_p为预测值,y_t为真实值。