统计模型中各检验分布及判断共线性方法

假设检验:
两类错误:弃真存伪;阿尔法表示犯第一类错误(弃真)概率
P值:如果原假设为真,则这个样本值发生的概率最大为多少

对于匹配样本的检验,可以用匹配样本的差值来进行检验他们的显著水平
匹配样本:同一个样本在不同时间点的状态

F分布:两个分布的方差之比;检验两个分布方差的差异程度

曲线相关:只存在数据挖掘;统计学只研究直线相关

相关分析
在这里插入图片描述

相关系数大于0.8:高度相关
相关系数大于等于0.5,小于0.8:中度相关
相关系数在0.3到0.5之间,视为低度相关
相关系数小于0.3,视为不相关

各相关系数区别:
皮尔逊相关系数:一般用来计算两个连续型变量的相关系数
肯德尔相关系数:一个连续一个分类(最好是定序变量)
斯皮尔曼相关系数:需要进行排序,排序后再进行相关分析;2个变量无论连续还是分类都可以,但斯皮尔曼是非参数的,会损失信息,尽量不用

相关系数容易受到离散值影响

最小二乘法:只能用于回归模型的方法;优点是能用最小二乘法,则计算的结果就是最优线性无偏;缺点是只能用于回归模型

偏回归系数的贡献
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

回归模型调优
高斯马尔科夫假定:
1. 线性于参数
2. 随机抽样(残差无序列相关)
3. 不存在完全共线性
4. 误差条件均值为0

遗漏重要变量的时候特别容易出现内生性问题,因为重要变量会跑到残差变量中;出现内生性问题时,模型预测一定有偏
5. 误差的同方差性
6. 误差的正态性

如果满足前5条,模型就是理论最优的

只要学会爬虫,基本互联网数据都是半公开了

标准误:标准差的无偏估计量

SST=SSE+SSR
SSE(explained variable)

R^2=SSE/SST
R^2能达到70%-80%已经非常不错了

不要建立无截距模型,否则模型一定有偏

F分布来检验多元回归模型
F=(SSE/p)/(SSR/(n-p-1))

模型调优:
1. 让计算机画分布图(QQ plot)
2. 分类变量:处理多分类数据,即因子变量转换

在这里插入图片描述
在这里插入图片描述
3. 对模型增加交互项:可改变斜率
在这里插入图片描述
4. 对模型增加高次项:即用平方的形式将直线变曲线,
在这里插入图片描述

判断共线性的方法:
方差膨胀因子(VIF)

在这里插入图片描述
在这里插入图片描述

VIF>10,一般要删变量
VIF>7,需要对x进行调整

变量选择:
逐步回归法:前项选择+后项剔除 结合
如果有100个x,则每个x先和因变量一一跑一个相关系数,再按照相关系数从大到小进行排序来建立回归模型;
如果第一个显著是x1,将x1放入后,再加上第二高相关系数的x2,如果x2的加入导致x1不显著,那么剔除x1,且加上x3,如果x3显著的话,那么再次放入x1,如此不断加入相关系数最高的进行删减

建立回归模型:
0. 明确需求(Y)
1. 数据清洗(缺失值,异常值(3倍标准差),分类变量)
2. 相关分析(相关系数,散点图)
3. 分割测试集训练集(3/7分,或2/8分)
4. 回归(F检验,t检验, R^2)
5. 模型调优(残差是正态性,同方差,不能有内生性,不能有共线性,序列相关性(时间))

6.模型精修(交互项,高次项,时间趋势,季节趋势…)
7. 逐步回归,交叉验证
8. 模型测试(从第三项拿出来的剩余数据进行检测)

验残差是否符合正态分布,可以通过画QQplot来检验,或者用SW检验和KS检验
SW检验和KS检验使用环境:
SW检验(样本数小于5000),KS检验(样本数大于5000)
如果残差不符合正态分布,最有效的方法是对因变量Y取自然对数

同方差性检验:BP检验和white检验
white检验的精确度更高,缺点是消耗大量自由度,所以white检验只适用于样本量足够大的时候
如果残差出现异方差性:第一种方法依然是对因变量Y取自然对数;如果无效,则第二种方法是加权最小二乘
在这里插入图片描述

内生性:商业上一般直接忽略该影响;如果实在需要,可以使用工具变量

共线性解决:使用VIF值
如果变量之间存在共线性,但是共线性的影响又不大时,首先可以考虑使用主成份分析(奇异值分解),但是主成份分析会改变变量的属性,所当我们不需要考虑后续变量输入新的属性时,可以考虑主成份分析,否则,我们可以考虑使用另一种方法,岭回归法或Lasso法,岭回归是用绝对值计算权重,而lasso是用平方来计算权重;岭回归和Lasso的优点是适用于任何共线性的情况,缺点是只要使用了这两种方法,那么模型一定是有偏的
在这里插入图片描述

序列相关性:高弗雷检验(Godfrey)

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值