预测算法模型
在开发预测模型和算法时,无论是线性回归模型还是ARIMA模型 ,重要的是量化模型对未来观测的适应程度。 计算模型的正确性的最简单方法之一是使用预测值和实际值之间的误差。 从那里开始,有几种方法可以利用这种差异并从中进一步挖掘含义。 量化算法的准确性是证明产品中使用该算法的重要步骤。
我们将使用R编程语言中的函数精度作为基础。 您可能会注意到,输出如下所示,其中有几个缩写似乎不太友好。 我们将在下面介绍其中的一些内容。 此外,您可以观看我们在R Studio中以视频格式解释相同的错误!

平均绝对误差(MAE)
平均绝对误差是较容易理解的误差之一。 它取实际值与预测值之间的绝对差并找到平均值。 查找绝对值很重要,因为它不允许以任何形式取消错误值。 例如,如果要取平均值1和-1,则平均值将为0,因为1和-1本质上会相互抵消。
为了避免这种情况,我们使用绝对值 。 现在,我们想演示如何在数学上和使用SQL查找MAE。 您可以对SQL使用以下公式,它将找到与MAE相同的值。 另外,我们认为它可以简化您在下一张图片中看到的所有复杂数学符号。
平均(Abs(实际—预测))

均方根误差(RMSE)
均方根误差似乎有点类似于MAE。 它们都采用实际值与预测值之差。 但是,RMSE也会对差值求平方,求出所有平方的平均值,然后求平方根。 现在看来,平方运算然后取平方根的动作可能会相互抵消。 事实并非如此。 RMSE本质上惩罚较大的错误。 另一种表达方式是,它对较大的错误施加了更大的权重 。
例如,让我们比较下面的两个表。 如果您注意到,表1和表2的MAE和RMSE几乎相同。但是,即使误差增加仅为1,这两个值之间的差也会变得稍大,如第一行所示。 如果错误是5、6或另一个更大的数字,则RMSE和MAE之间的差异会更大。 这是因为您将数字平方。 这会在基数中产生指数变化。 因此,误差差1对每次增加都会产生更大的影响,例如从(3到4,然后从4到5)。 这就是为什么它实质上惩罚较大的错误的原因。

以下再次是RMSESQL和数学符号。
Sqrt(平均(功率(实际-预测)))

平均绝对百分比误差(MAPE)
RMSE和MAE可能会遇到的一个问题是,这两个值可能只是变成一个很大的数字,实际上并不能说明所有问题。 RMSE 597是什么意思? 那有多坏? 部分原因是因为您需要将其与其他模型进行比较。 另一个问题是,RMSE将基于实际值和预测值的差异,这取决于您的数据可能在非常不同的范围内。 例如,如果您正在为一个十亿美元的公司创建模型,那么您的错误将比仅收入六位数的公司的错误大得多。
在这种情况下,平均绝对百分比误差是一个好方法,因为它是相对于实际值的误差百分比。 这提供了更多的标准化错误度量。 例如,如果误差为10并且实际值为100,则该百分比将为10%,而如果误差为100并且实际值为1000,则度量仍为10%。
这提供了比RMSE和MAE更多的上下文,可以帮助更好地解释模型的准确性。
下面列出了SQL和数学符号
平均(Abs(实际预测)/ Abs(实际))* 100

平均绝对比例误差(MASE)
平均标度误差是我们今天将要讨论的最后一个误差。 MASE与其他三个稍有不同。 它将比较您要测试的当前模型的MAE和朴素模型的MAE。 天真的模型只是将先前的观察结果预测为当前的观察结果。
MASE是MAE与朴素模型的MAE之比。 这样,当MASE等于1时,意味着您的模型与原始模型具有相同的MAE,因此您几乎不妨选择原始模型。 如果模型的MASE为.5,则表明您的模型大约是选择先前值的两倍。
此错误跳过了运行多个模型的步骤,而是自动将您的模型与另一个模型进行比较。 它提供了比MAE,RMSE和MAPE更多的上下文。

总体而言,这四个错误会产生一个故事,可以帮助您确定算法或模型是否合适。 还有其他因素需要考虑,但是我确实希望这有助于简化这些奇怪的缩写。 如果您还有其他问题,或者还有其他统计数据或编程问题。 请随时与我们联系!
有关数据科学的其他精彩读物:


预测算法模型