量纲对回归结果的影响_如何评价多元线性回归模型的优劣

最新推荐文章于 2023-06-25 10:35:25 发布

范米索

最新推荐文章于 2023-06-25 10:35:25 发布

阅读量2k

点赞数

文章标签：量纲对回归结果的影响

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29818013/article/details/112363776

版权

本文介绍了评价多元线性回归模型优劣的多个指标，包括F值检验、偏回归系数检验、标准化偏回归系数、复相关系数R、决定系数R2、校正决定系数R2adj、剩余标准差、赤池信息准则AIC以及预测效果。这些指标有助于判断模型的解释能力和预测准确性。

摘要由CSDN通过智能技术生成

多元线性回归模型是一种简单而且有效的数学模型，一直在各领域广泛使用。一个多元回归模型建好后，如何评价模型的优劣呢？

1. F值检验

因变量的总变异(数据与均值之差的平方和，记为SS_total)由回归平方和(因变量的变异中可以由自变量解释的部分，记为SSR)与误差平方和(记为SSE)构成，如果自变量引起的变异大于随机误差引起的变异，则说明因变量与至少一个自变量存在线性关系。回归平方和与误差平方和的比值记为F，F值服从F分布，通过查F分布概率表可得F值对应的概率，从而判断是否存在统计学意义。F值越大越好。

2. 偏回归系数检验

通过了F检验只说明因变量至少和一个自变量存在线性关系，但不是所有x都跟y存在线性关系。对每个变量的回归系数分别作t检验，假设回归系数为0，得到的概率值越小越好，一般取0.05作为临界值。

3. 标准化偏回归系数

y和x均经过标准化，均值为0，标准差为1，此时的回归结果常数项为0.消除了量纲的影响，更能直观表示自变量对因变量的影响。如果某项回归系数接近0，则说明该自变量与因变量的不具有线性关系，应当剔除。

4. 复相关系数R

指的是因变量与因变量的估计值(回归后得出的值)之间的简单线性相关系数，范围在0-1之间，一般来说，R值应大于0.9，但在某些社会科学研究中只要求R大于0.4，这是因为在社会科学研究中存在大量对因变量有影响却无法进行量化的因数，无法纳入模型研究。值得注意的是，即使向模型增加的变量没有统计学意义，R值也会增加，所以R值只作为参考。

5. 决定系数R²

因变量总变异中由模型中自变量解释部分的比例。也是越大越好，但是存在与R同样的问题。

R²=SSR/SS_total=1-SSE/SS_total

6.校正的决定系数R²_adj

将自变量的个数纳入了考量范围，解决了R²的局限性，不会随着自变量的增加而增加。当模型中增加的自变量缺乏统计学意义时，校正的决定系数会减小。该项系数越大越好。

R²_adj=1-(n-1)(1- R²)/(n-p-1) n表示样本量，p表示模型中自变量个数

7.剩余标准差

误差均方的算术平方根，该值应明显小于因变量的标准差，越小越好。说明在引入模型自变量后，因变量的变异明显减小。

8. 赤池信息准则AIC

包含两部分，一部分反映拟合精度，一部分反映模型繁简程度(自变量个数越少模型越简洁)，该值越小越好。值得注意的是，用最小二乘法拟合模型与用最大似然估计拟合的模型，其AIC计算方法是不一样的，所以用AIC进行模型比较时应注意拟合的方法是相同的才行。

最小二乘法拟合时：AIC=nln(SSE/n)+2p

最大似然估计拟合时：AIC=-2ln(L)+2p L为模型的最大似然函数

以上8种数据很多统计软件都能方便地输出。

9.预测效果

在数据量较大时，可留一部分数据用作预测，根据预测结果判断模型优劣。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。