多元线性回归常见问题及解决办法

1,查看模型好不好用修正后的决定系数
2,不必关注数据原本正确的函数关系是如何的,我们只是做一个模型,让这个模型尽可能贴近它,越贴近越好。
F,t只是检验显著不显著,是否有很强
2,看因变量与其中某个变量的线性程度,可以用相关性分析中的偏相关系数
R软件实现:
ggm包

corpcor包
cor2pcor(x),x是相关矩阵
3,方差分析表
4,逐步回归,前进法,后退法,最优集法
均为筛选掉不显著变量
5, 改变模型,能线性化的
数据变换,再拟合
常用的是多项式模型
可以对自变量变换,因变量变换或者同时变换
而Log y一般比x的二次项拟合更好
Box-cox变量变换族
6,回归诊断
残差诊断,四条假设为真时,残差应该是无规则的,标准化残差应落在-2到2,且没有任何趋势,可以看残差图。
回归函数线性诊断,书上只写了一元的例子,太简单了不写了,看残差图。
误差的方差齐性诊断,还是看残差图,有没有喇叭的形状。
独立性诊断,可以画残差关于序号的残差图,有规律一般是不独立,也可用dw检验,其实本质就是相关系数,因为dw≈2-2ρ,当相关系数ρ很小时,dw在2附近,可以说明无关
但dw只能检验一阶自相关,对于给定的α,dl和du可以查表,dw∈(dl,4-du)不相关,dw<dl负相关,dw>4-du正相关。其他的情况不下结论。
数据方差不独立时,可以通过差分法,迭代法做。
异常点和强影响点,一堆统计量。
7,含定性变量
最简单的 0,1
多个的时候可以设置类别减1个虚拟变量,不设置类数个虚拟变量是防止多重共线性
虚拟变量也有可能影响斜率
yi=(β0+β1Di)+(β2+β3Di)xi+εi
虚拟变量引入折线模型,折线两部分的斜率和截距都不相同
yi=β0+β1xi+β2(xi-x*)Di+εi
当xi<x*,Di为0
xi>x*,Di为1
8,协方差分析,适用模型自变量既包含因子又包含连续变量的情况
9,多重共线性,有偏估计
原因很多
严重影响回归结果
判定方法:
1,求特征根,有接近0的就说明
2,计算X’X的条件数,kappa,小于100可说明不存在,100-1000有中等共线性,1000以上较强共线性
3,方差扩大因子,vif<5,不存在多重共线性,5-10中等,10以上严重
解决办法:
岭估计,
主成分分析,
广义岭估计。
10,回归系数不显著的原因有很多,不要轻易删掉变量。

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值