本文我们介绍几个常用回归模型度量参数,分别对比它们之间的差异和应用场景。
回归模型常用于量化一个或多个预测变量与响应变量之间的关系。当拟合回归模型时,我们需要了解预测变量预测响应变量的程度。常用指标有:mean squared error (MSE) 和 the root mean squared error (RMSE),另外还包括R-Squared。
MSE(均方误差)
判定预测模型的准确度的常用方法是均方差MSE( mean squared error)。计算公示为:
MSE = (1/n) * Σ(actual – prediction)^2
- Σ 求和符号
- n 样本大小
- actual 实际数据值
- prediction 预测数据值
mse越小,预测模型准确性越高。
对于逻辑回归模型预测误差计算公式不同。因为响应变量为二值,通常度量变量为总体分类误差率:
Total misclassification rate = (# incorrect predictions / # total predictions)
分类误差率越低,模型预测响应变量结果越好。
RMSE(均方根误差)
均方误差的平方根。RMSE越小,模型拟合程度越好。
RMSE = √ Σ ( y ^ i – y i ) 2 / n ‾ \overline{Σ(ŷ_i – y_i)^2 / n } Σ(y^i–yi)2/n
- Σ 求和符号
- n 样本大小
- ŷi 为第i个观测记录的预测值
- yi 为第i个观测记录的观测值
我们看公式几乎一样,RMSE就是MSE的平方根。
RMSE Vs. MSE
实际在评估模型拟合程度时,通常使用RMSE,因为它与响应变量度量单位一样,理解起来更直观。相反MSE是响应变量的平方。
实际应用中我们会对同一数据集使用多个模型进行拟合并计算它们的RMSE,然后选择最低RMSE的模型作为最佳模型,因为其预测值更接近实际值。相较MSE,RMSE解释起来更直接。
RMSE Vs. R-Squared
也称为决定系数,它是衡量线性回归模型拟合数据集的程度,表示一定比例响应变量的方差能够被预测变量解释。R-Squared 取值范围是0 ~ 1。R-Squared 值越高,模型拟合数据集越好。0 表示响应变量完全不能被预测变量解释,1表示响应变量可以完美无误被预测变量解释。
那么R-Squared值为多少时表示好呢?
首先,R-Squared值并不表示预测变量与响应变量之间的相关性。
其次,R-Squared值越大,则预测变量预测会越准确。到底多大要取决于研究领域,如在科研领域可能需要0.95以上视为可靠,在其他领域数据中包括极值可能大于0.3就已满足。为了获得准确值,可能需要按照特定领域普遍接受值,也可以客户沟通具体能够接受值。一般认为0.8以上能够被接受。
RMSE 和 R-Squared 两者都可以度量模型的拟合程度,前者表示预测值与实际值直接的误差,R-Squared表示响应变量能够被预测变量解释的比例。