本文翻译自以下文章What Is R Squared And Negative R Squared - Fairly Nerdywww.fairlynerdy.com
R2 —— 评估回归的方法
回归是将函数拟合到数据的方法。例如,我们能够通过卫星统计沃尔玛门口停车场的汽车数量,也可以通过其收益报告了解沃尔玛在对应时段的销售额。于是,你想建立一个汽车数量与沃尔玛季度收益的函数关系,以便于您炒股。但是,在建立了汽车数量与季度收益的函数关系以后,我们应该如何评判你和出来的函数关系的优劣呢?常用的度量拟合效果的参数是决定系数R2。本文将详细介绍R2的计算原理及负值产生的原因分析:
什么是R2?
R2用于比较回归模型的预测误差与简单的Y=样本点平均值的误差。
R2的公式如下:
SS_Regression表示的是函数拟合得到的回归模型的预测值与真实值的误差的平方和
可以看下面这张图片,这里的黑色曲线就是通过数据拟合出来的一条回归曲线,上面计算的SS_Regression就是蓝色线(真实值)与黑色线(回归预测值)之间的误差。
SS_Total是表示Y=所有样本点平均值这么一条水平线与真实值之间误差的平方和。
我们计算出来了回归曲线的误差以后,跟谁去比较呢?这里选择了Y=所有样本点平均值这么一条水平线。计算真实值(蓝色线)和Y=所有样本点平均值