1、概念
- SSE(和方差、残差平方和) :The sum of squares due to error,该统计参数计算的是拟合数据和原始数据对应点的误差的平方和。SSE越接近于0,说明模型选择和拟合更好,数据预测也越成功。
- MSE(均方误差):Mean squared error,该统计参数是预测数据和原始数据对应点误差的平方和的均值,也就是SSE/n,和SSE没有太大的区别。
- RMSE(均方根误差):Root mean squared error,该统计参数,也叫回归系统的拟合标准差,是MSE的平方根。
- SSR(回归平方和):Sum of squares of the regression,即预测数据与原始数据均值之差的平方和。
- SST(离差平方和):Total sum of squares,即原始数据和均值之差的平方和。
- R-square(确定系数):Coefficient of determination,通过数据的变化来表征一个拟合的好坏。“确定系数”的正常取值范围为[0 1],越接近1,表明方程的变量对 y 的解释能力越强,这个模型对数据拟合的也较好。
- 相关度:相关度又叫 皮尔逊相关系数 (Pearson Correlation Coefficient),衡量两个值线性相关强度的量 取值范围 [-1, 1]: 正向相关: >0, 负向相关:<0, 无相关性:=0
- 调整的R方:Adjusted R-Square,调整R方的解释与R方类似,不同的是:调整R方同时考虑了样本量(n)和回归中自变量的个数(k)的影响,这使得调整R方永远小于R方,而且调整R方的值不会由于回归中自变量个数的增加而越来越接近1。
- 方差:variance,统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
- STD(标准差):Standard Deviation,方差的算数平方根。
因为在模型中,增加多个变量,即使事实上无关的变量,也会小幅度提高R平方的值,简单地说就是,用r_square的时候,不断添加变量能让模型的效果提升,而这种提升是虚假的。
如果模型中增加一个自变量,即使这个自变量在统计上并不显著,R方也会变大。因此,为避免增加自变量而高估R方,利用adjusted r square,能对添加的非显著变量给出惩罚,也就是说随意添加一个变量不一定能让模型拟合度上升。
注:这篇博文中涉及的,均方误差和方差是一样的,实际上它们两者是有区别的,具体可参看:
下面列个表格
简称 | 中文名字 | 计算公式 |
---|---|---|
SSE | 和方差、残差平方和 | |
MSE | 均方误差、方差 | |
RMSE | 均方根误差、标准差 | |
SSR | 回归平方和 | |
SST | 离差平方和 | |
R-square | 确定系数 | |
Adjusted R-Square | 调整R方 | |
ρ \rho ρ | 相关度 |
上述公式中w 是权重,一般都是1,调整R 方中的p 是number of predictors,
2、例子
下面整个简单例子,有这样两组变量:
X | Y |
---|---|
1 | 10 |
3 | 12 |
8 | 24 |
7 | 21 |
9 | 34 |
于是,n=5,w=1,p=1,,为啥是1,现在不太清楚。
Matlab代码:
X=[1;3;8;7;9];
Y=[10;12;24;21;34];
X_mean=mean(X);%5.6
Y_mean=mean(Y);%20.2
X_var=var(X,1);%9.44
Y_var=var(Y,1);%Y的方差,即Y_SST/n 75.36
XY_cov=cov(X,Y,1);%XY的协方差矩阵,对角线上是方差,其他是协方差 25.08
corrcoef(X,Y);%算相关系数,1, 0.9403
之后点
然后得出结果:
关于这个RMSE,不知道Matlab咋算的,其他数据还行。
excle 版本的:
X | Y | Y_hat | SSE | SSR | SST | R^2 |
---|---|---|---|---|---|---|
1 | 10 | 7.9788 | 4.08524944 | 149.3577294 | 104.04 | |
3 | 12 | 13.2924 | 1.67029776 | 47.71493776 | 67.24 | |
8 | 24 | 26.5764 | 6.63783696 | 40.65847696 | 14.44 | |
7 | 21 | 23.9196 | 8.52406416 | 13.83542416 | 0.64 | MSE=8.728 |
9 | 34 | 29.2332 | 22.72238224 | 81.59870224 | 190.44 | RMSE=2.9543 |
43.63983056 | 333.1652706 | 376.8 | 0.884196578 |
参考文章
https://jingyan.baidu.com/article/67508eb40d47b09cca1ce4ce.html
https://blog.csdn.net/l18930738887/article/details/50629409
https://blog.csdn.net/YEN_CSDN/article/details/79105846