用python处理excel数据、求线性回归方程的r值_数据分析|回归分析(R&Python)

本文介绍了如何使用Python处理Excel数据,并探讨线性回归方程的r值及其显著性检验。讨论了相关系数的含义、回归分析中的问题,如多重共线性,并提出了解决方法。同时,通过R语言和Python示例展示了如何进行一元和多元线性回归,包括模型评估和特征选择。
摘要由CSDN通过智能技术生成

0X01 前言

变量之间关系可以分为两类:

函数关系:反映了事务之间某种确定性关系

相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;相关系数(r)可以衡量这种相关关系。r的取值范围是[-1,1],r=1表示完全正相关!r=-1表示完全负相关!r=0表示完全不相关。

为什么要对相关系数进行显著性检验?

1)实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)

2)当样本数较少,相关系数就很大。当样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了;取决于你的剔除数据原则,还有这组数据真的可能不存在相关性;改变两列数据的顺序,不会对相关系数,和散点图(拟合的函数曲线)造成影响;

对两列数据进行归一化处理,标准化处理,不会影响相关系数;

我们计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量;

线性关系检验

回归系数检验

最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。

拟合优度:顾名思义,拟合优度就是衡量一个回归做的好不好的指标,定义为

equation?tex=R%5E2%3D%5Cfrac%7BSSR%7D%7BSST%7D

我们期望回归平方和占比越大,那么我们的模型就越好;但是回归平方和<=总平方和;equation?tex=R%5E%7B2%7D 的缺陷:新增加一个变量,

equation?tex=R%5E%7B2%7D 会加大;所以单独用

equation?tex=R%5E%7B2%7D 来评价模型的好坏并不靠谱

可以联想到P值,我们总是说P<0.05,能得出显著性的结论,我们拒绝H0,接受H1(往往我们对假设进行设计时,H1是我们想要支持的假设,H0是我们反对的假设。)

至于P<0.05的标准,则是统计学家们拍脑袋拍出来的。----人大著名统计学家吴喜之

针对

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值