调整的R方_如何选择回归模型

 

sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程)

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

 

 

1.选择最简单模型

   如果不能满足:

           增加参数,增加R**2

                 判断是否overfittiing

                        调整R方,BIC,AIC(选择较小BIC或AIC值)

 

R方不能比较参数不同模型,但调整后R方可以比较不同参数模型

如果添加一个新的变量,但调整R方变小,这个变量就是多余的

如果添加一个新的变量,但调整R方变大,这个变量就是有用的

 

R^2很小得谨慎,说明你选的解释变量解释能力不足,有可能有其他重要变量被纳入到误差项。可尝试寻找其他相关变量进行多元回归

这个问题在伍德里奇的书里有说明,可绝系数只是判断模型优劣的指标之一,而不是全部,特别是当使用微观数据,样本量比较大的时候,可绝系数可以很小,但这并不能表示模型就差。

 

显著但是R值小,要考虑不同的专业背景。
有的专业确实比较小,楼主的例子,我觉得这个大小就能接受了。
态度与行为之间的影响因素非常多,态度能解释行为11-15%已经不小了。

 

F检验是对整个模型而已的,看是不是自变量系数不全为0,而t检验则是分别针对某个自变量的,看每个自变量是否有显著预测效力。

 

 

              调整R方VS样本量VS变量数量                                    

样本量越大,调整的R方惩罚机制越小,调整的R方越大

样本量越小,调整的R方惩罚机制越大,调整的R方越小

变量越多,惩罚机制越严重,调整R方越小

变量越少,惩罚机制越严小,调整R方越大

n=13 样本
p=2 变量数量
adjR2=rSquared-(1-rSquared)*((p-1)/(n-p))=0.63-(1-0.63)

rSquared=0.63109603807606962

rSquared_adj=0.59755931426480324


n=13 样本
n越大,(n-p)大,(p-1)/(n-p)越小,(1-rSquared)*((p-1)/(n-p))越小,rSquared-(1-rSquared)*((p-1)/(n-p))越大,即样本量越大,调整R方越大,变量解释力度越大。

p=2 变量数量
参数多,p大,(P-1)越大,(n-p)越小
,(p-1)/(n-p)越大,
rSquared-(1-rSquared)*((p-1)/(n-p)) 越小,即adjR2越小。所以变量越多,惩罚机制越严重,调整R方越小

 

测试Python脚本

导入excel数据

 

import pandas as pd
df=pd.read_excel("土壤沉淀物吸收能力采样数据-不存在共线性.xlsx") 
array_values=df.values
x1=[i[0] for i in array_values]
x2=[i[1] for i in array_values]

df = pd.DataFrame({'x':x1, 'y':x2})
# Fit the model
model = ols("y~x", df).fit()
rSquared_adj=model.rsquared_adj
rSquared=model.rsquared


n=13 #样本
p=2  #变量数量
adjR2=rSquared-(1-rSquared)*((p-1)/(n-p))


#最终adjR2和rSquared_adj是相等的

  

 

 

 

 n为样本个数,p为变量数

 

 

 

 

 

python风控评分卡建模和风控常识(博客主亲自录制视频教程)

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 你好,感谢您的问题。对于回归分析,通常使用调整R进行模型拟合的评估。R是衡量模型对实际数据的拟合程度的一个指标,而调整R则可以对模型的复杂度进行调整,避免过度拟合。因此,在大多数情况下,使用调整R比仅仅看R更加合适。希望这个回答能够帮助到您,如果您有任何其他问题,请随时问我。 ### 回答2: 回归分析是用来评估和分析自变量和因变量之间关系的统计法。其中,R调整R都是衡量回归模型拟合程度的指标。 R(拟合优度)是一个常见的回归分析指标,它衡量了模型中自变量对因变量变异解释的比例。R值的范围从0到1,越接近1说明模型能更好地解释因变量的变异。R只考虑自变量的数量和对因变量的解释程度,不考虑自变量的重要性和模型复杂度。 但是,R有一个弱点,那就是它会随着自变量的增加而增加,即使新增的自变量对因变量没有实质影响。因此,为了解决这个问题,调整R(Adjusted R-square)应运而生。 调整R考虑了模型的复杂度,将自变量的数量纳入考虑,并且对自变量的贡献进行了修正。调整R通过对R进行惩罚,减去了多余变量所引入的模型复杂度。调整R的值一般会小于R,较低的调整R值可能意味着模型过于简单或者缺乏重要的自变量。 在进行回归分析时,选择看R还是调整R要根据具体情况来决定。如果只关注拟合程度的好坏,并且模型简单,则R是一个合适的指标。如果希望考虑模型复杂度,并选择能更好地解释数据的模型,则调整R更为适合。一般来说,当选择不同模型时,需要综合考虑R调整R,选取拟合程度和模型复杂度达到最优的模型。 ### 回答3: 回归分析是一种用于研究因变量与一个或多个自变量之间关系的统计法。在回归分析中,常用的衡量模型拟合程度的指标是R调整R。 R指标告诉我们自变量对因变量的解释程度,其数值范围在0到1之间。R越接近1,表示模型对观测数据的解释能力越好,也就是自变量对因变量的变异程度解释得越完整。然而,R有一个缺点,就是在模型加入更多自变量时,由于新变量的引入也会使R增加,即使新变量对因变量的解释能力很小或者无关。 为了克服R的缺点,调整R应运而生。调整R通过考虑模型中自变量的个数来调整R值。调整R在模型中引入自变量的个数作为惩罚项,从而消除了自变量个数增加带来的R增加的影响。所以,调整R可以更准确地反映模型的解释能力。调整R的值范围也在0到1之间,与R类似。 在选择使用R还是调整R作为评估回归模型拟合程度的指标时,要根据具体情况来定。一般来说,在只有一个自变量的简单线性回归模型中,R调整R的值是相等的,可以使用任意一个。但是在多元回归模型中,当引入了更多的自变量时,调整R会对解释能力进行惩罚,更准确地反映模型的解释能力。因此,在多元回归模型中,建议使用调整R作为衡量模型拟合程度的指标。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值