用python处理excel数据、求线性回归方程的r值_数据分析|回归分析（R&Python）

最新推荐文章于 2024-07-17 17:13:36 发布

weixin_39712016

最新推荐文章于 2024-07-17 17:13:36 发布

阅读量1.5k

点赞数

文章标签：用python处理excel数据、求线性回归方程的r值

本文介绍了如何使用Python处理Excel数据，并探讨线性回归方程的r值及其显著性检验。讨论了相关系数的含义、回归分析中的问题，如多重共线性，并提出了解决方法。同时，通过R语言和Python示例展示了如何进行一元和多元线性回归，包括模型评估和特征选择。

摘要由CSDN通过智能技术生成

0X01 前言

变量之间关系可以分为两类：

函数关系：反映了事务之间某种确定性关系

相关关系：两个变量之间存在某种依存关系，但二者并不是一一对应的；反映了事务间不完全确定关系；相关系数(r)可以衡量这种相关关系。r的取值范围是[-1,1]，r=1表示完全正相关！r=-1表示完全负相关！r=0表示完全不相关。

为什么要对相关系数进行显著性检验？

1）实际上完全没有关系的变量，在利用样本数据进行计算时也可能得到一个较大的相关系数值（尤其是时间序列数值）

2）当样本数较少，相关系数就很大。当样本量从100减少到40后，相关系数大概率会上升，但上升到多少，这个就不能保证了；取决于你的剔除数据原则，还有这组数据真的可能不存在相关性；改变两列数据的顺序，不会对相关系数，和散点图（拟合的函数曲线）造成影响；

对两列数据进行归一化处理，标准化处理，不会影响相关系数；

我们计算的相关系数是线性相关系数，只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提；此外相关系数反映两个变量之间的相关性，多个变量之间的相关性可以通过复相关系数来衡量；

线性关系检验

回归系数检验

最小二乘法是一种数学优化技术，它通过最小化误差的平方和寻找数据的最佳函数匹配。

拟合优度：顾名思义，拟合优度就是衡量一个回归做的好不好的指标，定义为

$equation?tex=R%5E2%3D%5Cfrac%7BSSR%7D%7BSST%7D$

我们期望回归平方和占比越大，那么我们的模型就越好；但是回归平方和<=总平方和； equation?tex=R%5E%7B2%7D 的缺陷：新增加一个变量，

equation?tex=R%5E%7B2%7D 会加大；所以单独用

equation?tex=R%5E%7B2%7D 来评价模型的好坏并不靠谱

可以联想到P值，我们总是说P<0.05，能得出显著性的结论，我们拒绝H0，接受H1（往往我们对假设进行设计时，H1是我们想要支持的假设，H0是我们反对的假设。）

至于P<0.05的标准，则是统计学家们拍脑袋拍出来的。----人大著名统计学家吴喜之

针对

最低0.47元/天解锁文章

weixin_39712016

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。