0X01 前言
变量之间关系可以分为两类:
函数关系:反映了事务之间某种确定性关系
相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;相关系数(r)可以衡量这种相关关系。r的取值范围是[-1,1],r=1表示完全正相关!r=-1表示完全负相关!r=0表示完全不相关。
为什么要对相关系数进行显著性检验?
1)实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)
2)当样本数较少,相关系数就很大。当样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了;取决于你的剔除数据原则,还有这组数据真的可能不存在相关性;改变两列数据的顺序,不会对相关系数,和散点图(拟合的函数曲线)造成影响;
对两列数据进行归一化处理,标准化处理,不会影响相关系数;
我们计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量;
线性关系检验
回归系数检验
最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。
拟合优度:顾名思义,拟合优度就是衡量一个回归做的好不好的指标,定义为
我们期望回归平方和占比越大,那么我们的模型就越好;但是回归平方和<=总平方和; 的缺陷:新增加一个变量,
会加大;所以单独用
来评价模型的好坏并不靠谱
可以联想到P值,我们总是说P<0.05,能得出显著性的结论,我们拒绝H0,接受H1(往往我们对假设进行设计时,H1是我们想要支持的假设,H0是我们反对的假设。)
至于P<0.05的标准,则是统计学家们拍脑袋拍出来的。----人大著名统计学家吴喜之
针对